ukr-detect/ukr-toxicity-dataset-translated-jigsaw
收藏Hugging Face2025-02-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ukr-detect/ukr-toxicity-dataset-translated-jigsaw
下载链接
链接失效反馈官方服务:
资源简介:
乌克兰毒性数据集是一个翻译后的英文Jigsaw毒性分类数据集,包含了两个标签:无毒和有毒。数据集由英文数据源翻译成乌克兰语,目的是为了支持公平的NLP模型开发,特别是对于那些缺乏标注数据的语言。这个数据集是通过翻译、过滤和众包注释的方法构建的。
The Ukrainian Toxicity Dataset is a translated version of the English Jigsaw Toxicity Classification Dataset, containing two labels: non-toxic and toxic. The dataset is translated from English to Ukrainian to support the fair development of NLP models, especially for languages lacking labeled data. This dataset is constructed through translation, filtering, and crowdsourcing annotation.
提供机构:
ukr-detect
原始信息汇总
数据集概述
数据集信息
- 特征:
text: 数据类型为stringlabels: 数据类型为int64
- 分割:
train: 字节数为 40682670,样本数为 128549test: 字节数为 15661720,样本数为 52294
- 下载大小: 29856802 字节
- 数据集大小: 56344390 字节
配置
- 默认配置:
train数据文件路径:data/train-*test数据文件路径:data/test-*
数据集形成
- 英语数据源: Jigsaw Toxic Comment Classification Challenge
- 数据处理: 仅保留两个标签,即有毒和无毒的句子。
- 翻译: 使用模型 Helsinki-NLP/opus-mt-en-uk 将数据翻译成乌克兰语。
标签
0: 无毒1: 有毒
加载数据集
python from datasets import load_dataset dataset = load_dataset("ukr-detect/ukr-toxicity-dataset-translated-jigsaw")
引用
@article{dementieva2024toxicity, title={Toxicity Classification in Ukrainian}, author={Dementieva, Daryna and Khylenko, Valeriia and Babakov, Nikolay and Groh, Georg}, journal={arXiv preprint arXiv:2404.17841}, year={2024} }



