ukr-detect/ukr-toxicity-dataset-translated-jigsaw

Name: ukr-detect/ukr-toxicity-dataset-translated-jigsaw
Creator: ukr-detect
Published: 2025-02-03 19:40:57
License: 暂无描述

Hugging Face2025-02-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ukr-detect/ukr-toxicity-dataset-translated-jigsaw

下载链接

链接失效反馈

官方服务：

资源简介：

乌克兰毒性数据集是一个翻译后的英文Jigsaw毒性分类数据集，包含了两个标签：无毒和有毒。数据集由英文数据源翻译成乌克兰语，目的是为了支持公平的NLP模型开发，特别是对于那些缺乏标注数据的语言。这个数据集是通过翻译、过滤和众包注释的方法构建的。

The Ukrainian Toxicity Dataset is a translated version of the English Jigsaw Toxicity Classification Dataset, containing two labels: non-toxic and toxic. The dataset is translated from English to Ukrainian to support the fair development of NLP models, especially for languages lacking labeled data. This dataset is constructed through translation, filtering, and crowdsourcing annotation.

提供机构：

ukr-detect

原始信息汇总

数据集概述

数据集信息

特征:
- text: 数据类型为 string
- labels: 数据类型为 int64
分割:
- train: 字节数为 40682670，样本数为 128549
- test: 字节数为 15661720，样本数为 52294
下载大小: 29856802 字节
数据集大小: 56344390 字节

配置

默认配置:
- train 数据文件路径: data/train-*
- test 数据文件路径: data/test-*

数据集形成

英语数据源: Jigsaw Toxic Comment Classification Challenge
数据处理: 仅保留两个标签，即有毒和无毒的句子。
翻译: 使用模型 Helsinki-NLP/opus-mt-en-uk 将数据翻译成乌克兰语。

加载数据集

python from datasets import load_dataset dataset = load_dataset("ukr-detect/ukr-toxicity-dataset-translated-jigsaw")

引用

@article{dementieva2024toxicity, title={Toxicity Classification in Ukrainian}, author={Dementieva, Daryna and Khylenko, Valeriia and Babakov, Nikolay and Groh, Georg}, journal={arXiv preprint arXiv:2404.17841}, year={2024} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集