NickyNicky/toxi-text-es_and_en-2M
收藏Hugging Face2024-05-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/NickyNicky/toxi-text-es_and_en-2M
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
- name: is_toxic
dtype: int64
- name: lang
dtype: string
splits:
- name: train
num_bytes: 1304050653.6732721
num_examples: 2554728
download_size: 890473241
dataset_size: 1304050653.6732721
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
license: apache-2.0
language:
- en
- es
size_categories:
- 1M<n<10M
---
## original dataset
```
https://huggingface.co/datasets/FredZhang7/toxi-text-3M
```
# is_toxic.
```
toxic: 1
no toxic: 0
```
## Supported types of toxicity:
```
- Identity Hate/Homophobia
- Misogyny
- Violent Extremism
- Hate Speech
- Offensive Insults
- Sexting
- Obscene
- Threats
- Harassment
- Racism
- Trolling
- Doxing
- Others
```
## Supported languages:
```
- en
- es
```
提供机构:
NickyNicky
原始信息汇总
数据集概述
数据集特征
- text:文本内容,数据类型为字符串。
- is_toxic:毒性标识,数据类型为整数,其中毒性为1,非毒性为0。
- lang:文本语言,数据类型为字符串。
数据集划分
- train:训练集,包含2554728个样本,总大小为1304050653.6732721字节。
数据集大小
- 下载大小:890473241字节。
- 数据集大小:1304050653.6732721字节。
配置
- config_name:default
- data_files:训练数据路径为
data/train-*。
许可证
- license:Apache-2.0
语言支持
- en:英语
- es:西班牙语
大小分类
- 1M<n<10M:数据集大小在此范围内。
支持的毒性类型
- Identity Hate/Homophobia
- Misogyny
- Violent Extremism
- Hate Speech
- Offensive Insults
- Sexting
- Obscene
- Threats
- Harassment
- Racism
- Trolling
- Doxing
- Others



