five

NickyNicky/toxi-text-es_and_en-2M

收藏
Hugging Face2024-05-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/NickyNicky/toxi-text-es_and_en-2M
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: text dtype: string - name: is_toxic dtype: int64 - name: lang dtype: string splits: - name: train num_bytes: 1304050653.6732721 num_examples: 2554728 download_size: 890473241 dataset_size: 1304050653.6732721 configs: - config_name: default data_files: - split: train path: data/train-* license: apache-2.0 language: - en - es size_categories: - 1M<n<10M --- ## original dataset ``` https://huggingface.co/datasets/FredZhang7/toxi-text-3M ``` # is_toxic. ``` toxic: 1 no toxic: 0 ``` ## Supported types of toxicity: ``` - Identity Hate/Homophobia - Misogyny - Violent Extremism - Hate Speech - Offensive Insults - Sexting - Obscene - Threats - Harassment - Racism - Trolling - Doxing - Others ``` ## Supported languages: ``` - en - es ```
提供机构:
NickyNicky
原始信息汇总

数据集概述

数据集特征

  • text:文本内容,数据类型为字符串。
  • is_toxic:毒性标识,数据类型为整数,其中毒性为1,非毒性为0。
  • lang:文本语言,数据类型为字符串。

数据集划分

  • train:训练集,包含2554728个样本,总大小为1304050653.6732721字节。

数据集大小

  • 下载大小:890473241字节。
  • 数据集大小:1304050653.6732721字节。

配置

  • config_name:default
  • data_files:训练数据路径为data/train-*

许可证

  • license:Apache-2.0

语言支持

  • en:英语
  • es:西班牙语

大小分类

  • 1M<n<10M:数据集大小在此范围内。

支持的毒性类型

  • Identity Hate/Homophobia
  • Misogyny
  • Violent Extremism
  • Hate Speech
  • Offensive Insults
  • Sexting
  • Obscene
  • Threats
  • Harassment
  • Racism
  • Trolling
  • Doxing
  • Others
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作