ukr-detect/ukr-toxicity-dataset-seminatural

Name: ukr-detect/ukr-toxicity-dataset-seminatural
Creator: ukr-detect
Published: 2025-02-03 19:40:20
License: 暂无描述

Hugging Face2025-02-03 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/ukr-detect/ukr-toxicity-dataset-seminatural

下载链接

链接失效反馈

官方服务：

资源简介：

乌克兰毒性数据集是首个针对乌克兰语言的毒性分类数据集。该数据集通过半自动方式从乌克兰推文中筛选出含有毒性语言的文本，并结合非毒性句子（来自新闻和小说）构建而成。数据集分为训练集、验证集和测试集，并进行了毒性/非毒性和数据来源的平衡。标签定义为0表示非毒性，1表示毒性。

提供机构：

ukr-detect

原始信息汇总

数据集概述

数据集信息

特征:
- text: 类型为 string
- tags: 类型为 float64
分割:
- train: 字节数为 2105604，样本数为 12682
- validation: 字节数为 705759，样本数为 4227
- test: 字节数为 710408，样本数为 4214
下载大小: 2073133 字节
数据集大小: 3521771 字节

配置

配置名称: default
数据文件:
- train: 路径为 data/train-*
- validation: 路径为 data/validation-*
- test: 路径为 data/test-*

数据集形成

过滤乌克兰推文，仅保留包含有毒语言的推文。源数据来自 ukr-twi-corpus
非有毒句子来自之前的推文数据集以及来自 UD Ukrainian IU 的新闻和小说句子。
数据集被分割为训练集、测试集和验证集，并根据有毒/非有毒标准和数据源进行平衡。

加载数据集

python from datasets import load_dataset dataset = load_dataset("ukr-detect/ukr-toxicity-dataset")

引用

@article{dementieva2024toxicity, title={Toxicity Classification in Ukrainian}, author={Dementieva, Daryna and Khylenko, Valeriia and Babakov, Nikolay and Groh, Georg}, journal={arXiv preprint arXiv:2404.17841}, year={2024} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集