SEACrowd/toxicity_200

Name: SEACrowd/toxicity_200
Creator: SEACrowd
Published: 2024-06-24 13:25:34
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/toxicity_200

下载链接

链接失效反馈

官方服务：

资源简介：

Toxicity-200是一个用于检测200种语言中毒性内容的词汇表。它包含常见的粗俗语言、侮辱性词汇、仇恨言论、色情术语以及与性活动相关的身体部位术语。支持的语言包括ind、ace、bjn、bug、jav。

Toxicity-200 is a wordlist to detect toxicity in 200 languages. It contains frequent words and phrases generally considered toxic, including profanities, insults, hate speech, pornographic terms, and terms for body parts associated with sexual activity. Supported languages include ind, ace, bjn, bug, jav.

提供机构：

SEACrowd

原始信息汇总

Toxicity 200 数据集概述

数据集简介

Toxicity-200 是一个用于检测200种语言中毒性词汇的词表。该词表包含的词汇和短语通常被认为是有毒的，因为它们代表了：

频繁使用的亵渎语言；
频繁使用的侮辱和仇恨言论词汇，或用于欺凌、贬低或贬低的语言；
色情词汇；
与性活动相关的身体部位词汇。

支持的语言

数据集使用

使用 `datasets` 库

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/toxicity_200", trust_remote_code=True)

使用 `seacrowd` 库

python import seacrowd as sc

使用默认配置加载数据集

dset = sc.load_dataset("toxicity_200", schema="seacrowd")

检查数据集的所有可用子集（配置名称）

print(sc.available_config_names("toxicity_200"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集主页

https://github.com/facebookresearch/flores/blob/main/toxicity

数据集版本

源版本: 1.0.0
SEACrowd 版本: 2024.06.20

数据集许可证

CC-BY-SA 4.0

引用

如果您在工作中使用了 Toxicity 200 数据加载器，请引用以下内容：

@article{nllb2022, author = {NLLB Team, Marta R. Costa-jussà, James Cross, Onur Çelebi, Maha Elbayad, Kenneth Heafield, Kevin Heffernan, Elahe Kalbassi, Janice Lam, Daniel Licht, Jean Maillard, Anna Sun, Skyler Wang, Guillaume Wenzek, Al Youngblood, Bapi Akula, Loic Barrault, Gabriel Mejia Gonzalez, Prangthip Hansanti, John Hoffman, Semarley Jarrett, Kaushik Ram Sadagopan, Dirk Rowe, Shannon Spruit, Chau Tran, Pierre Andrews, Necip Fazil Ayan, Shruti Bhosale, Sergey Edunov, Angela Fan, Cynthia Gao, Vedanuj Goswami, Francisco Guzmán, Philipp Koehn, Alexandre Mourachko, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Jeff Wang}, title = {No Language Left Behind: Scaling Human-Centered Machine Translation}, year = {2022} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

Toxicity-200数据集的构建，旨在覆盖广泛的语言范围，以检测文本中的毒性内容。该数据集的构建方式涉及搜集并整理了在200种语言中频繁出现的具有攻击性的词汇和短语，这些内容通常涵盖了常用的亵渎语、侮辱性及仇恨言论、色情词汇，以及与性行为相关的身体部位术语。

特点

该数据集显著的特点在于其语言多样性，覆盖了包括ind、ace、bjn、bug、jav等在内的多种语言，能够为研究人员提供在不同文化和社会背景下毒性内容的检测基准。此外，Toxicity-200数据集采用CC-BY-SA 4.0协议授权，保证了数据集的开放性和可访问性。

使用方法

使用该数据集时，用户可以通过`datasets`库或`seacrowd`库来加载。通过`datasets`库加载数据集时，仅需一行代码即可实现；而使用`seacrowd`库，则提供了更多配置选项，用户可以根据需要加载不同的数据子集。详细的加载指南和库的使用说明可在相关GitHub页面和文档中找到。

背景与挑战

背景概述

Toxicity-200数据集，由SEACrowd团队于2024年6月20日创建，是一个覆盖200种语言的词汇列表，旨在检测语言中的毒性。该数据集包含的词汇和短语通常被认为具有攻击性，包括常见的亵渎语、侮辱和仇恨言论、色情术语以及与性行为相关的身体部位术语。SEACrowd/toxicity_200的构建，为多语言环境中的毒性检测提供了重要资源，对自然语言处理领域，尤其是在东南亚洲语言的处理上，产生了显著影响。

当前挑战

SEACrowd/toxicity_200数据集在构建过程中面临的主要挑战包括：跨语言和文化的毒性定义差异，导致难以统一标准；多语言数据收集和标注的复杂性；以及如何保证数据集的覆盖面和准确性，以适应不断变化的网络语言环境。此外，数据集在解决领域问题，如仇恨言论检测、网络暴力监控等方面，还需应对如何平衡言论自由与保护用户免受伤害的挑战。

常用场景

经典使用场景

在当今多元化和全球化语言环境中， Toxicity-200 数据集的构建旨在为研究者在200种语言中检测毒性内容提供有力工具。该数据集最经典的使用场景便是作为自然语言处理模型训练的一部分，用于识别和过滤文本中的不当言论，包括亵渎、侮辱、仇恨言论以及涉及色情和性行为的词汇。

解决学术问题

Toxicity-200 数据集解决了多语言环境中内容审查和毒性检测的难题，为跨语言研究提供了统一的标准和资源。它使得研究者能够在不同的文化和语言背景下，对毒性内容进行定量分析和模型评估，从而推动网络环境的健康和谐。

衍生相关工作

基于 Toxicity-200 数据集，研究者们衍生出了多项相关的工作，包括构建更加精确的毒性检测模型、跨语言毒性趋势分析以及文化差异性研究，这些工作进一步拓展了数据集的应用范围，并促进了相关领域的学术交流与进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集