five

ukr-detect/ukr-toxicity-dataset-translated-jigsaw

收藏
Hugging Face2025-02-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ukr-detect/ukr-toxicity-dataset-translated-jigsaw
下载链接
链接失效反馈
官方服务:
资源简介:
乌克兰毒性数据集是一个翻译后的英文Jigsaw毒性分类数据集,包含了两个标签:无毒和有毒。数据集由英文数据源翻译成乌克兰语,目的是为了支持公平的NLP模型开发,特别是对于那些缺乏标注数据的语言。这个数据集是通过翻译、过滤和众包注释的方法构建的。

The Ukrainian Toxicity Dataset is a translated version of the English Jigsaw Toxicity Classification Dataset, containing two labels: non-toxic and toxic. The dataset is translated from English to Ukrainian to support the fair development of NLP models, especially for languages lacking labeled data. This dataset is constructed through translation, filtering, and crowdsourcing annotation.
提供机构:
ukr-detect
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • text: 数据类型为 string
    • labels: 数据类型为 int64
  • 分割:
    • train: 字节数为 40682670,样本数为 128549
    • test: 字节数为 15661720,样本数为 52294
  • 下载大小: 29856802 字节
  • 数据集大小: 56344390 字节

配置

  • 默认配置:
    • train 数据文件路径: data/train-*
    • test 数据文件路径: data/test-*

数据集形成

  1. 英语数据源: Jigsaw Toxic Comment Classification Challenge
  2. 数据处理: 仅保留两个标签,即有毒和无毒的句子。
  3. 翻译: 使用模型 Helsinki-NLP/opus-mt-en-uk 将数据翻译成乌克兰语。

标签

  • 0: 无毒
  • 1: 有毒

加载数据集

python from datasets import load_dataset dataset = load_dataset("ukr-detect/ukr-toxicity-dataset-translated-jigsaw")

引用

@article{dementieva2024toxicity, title={Toxicity Classification in Ukrainian}, author={Dementieva, Daryna and Khylenko, Valeriia and Babakov, Nikolay and Groh, Georg}, journal={arXiv preprint arXiv:2404.17841}, year={2024} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作