five

SEACrowd/toxicity_200|语言检测数据集|毒性识别数据集

收藏
hugging_face2024-06-24 更新2024-06-29 收录
语言检测
毒性识别
下载链接:
https://hf-mirror.com/datasets/SEACrowd/toxicity_200
下载链接
链接失效反馈
资源简介:
Toxicity-200是一个用于检测200种语言中毒性内容的词汇表。它包含常见的粗俗语言、侮辱性词汇、仇恨言论、色情术语以及与性活动相关的身体部位术语。支持的语言包括ind、ace、bjn、bug、jav。

Toxicity-200 is a wordlist to detect toxicity in 200 languages. It contains frequent words and phrases generally considered toxic, including profanities, insults, hate speech, pornographic terms, and terms for body parts associated with sexual activity. Supported languages include ind, ace, bjn, bug, jav.
提供机构:
SEACrowd
原始信息汇总

Toxicity 200 数据集概述

数据集简介

Toxicity-200 是一个用于检测200种语言中毒性词汇的词表。该词表包含的词汇和短语通常被认为是有毒的,因为它们代表了:

  1. 频繁使用的亵渎语言;
  2. 频繁使用的侮辱和仇恨言论词汇,或用于欺凌、贬低或贬低的语言;
  3. 色情词汇;
  4. 与性活动相关的身体部位词汇。

支持的语言

  • ind
  • ace
  • bjn
  • bug
  • jav

数据集使用

使用 datasets

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/toxicity_200", trust_remote_code=True)

使用 seacrowd

python import seacrowd as sc

使用默认配置加载数据集

dset = sc.load_dataset("toxicity_200", schema="seacrowd")

检查数据集的所有可用子集(配置名称)

print(sc.available_config_names("toxicity_200"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集主页

https://github.com/facebookresearch/flores/blob/main/toxicity

数据集版本

  • 源版本: 1.0.0
  • SEACrowd 版本: 2024.06.20

数据集许可证

CC-BY-SA 4.0

引用

如果您在工作中使用了 Toxicity 200 数据加载器,请引用以下内容:

@article{nllb2022, author = {NLLB Team, Marta R. Costa-jussà, James Cross, Onur Çelebi, Maha Elbayad, Kenneth Heafield, Kevin Heffernan, Elahe Kalbassi, Janice Lam, Daniel Licht, Jean Maillard, Anna Sun, Skyler Wang, Guillaume Wenzek, Al Youngblood, Bapi Akula, Loic Barrault, Gabriel Mejia Gonzalez, Prangthip Hansanti, John Hoffman, Semarley Jarrett, Kaushik Ram Sadagopan, Dirk Rowe, Shannon Spruit, Chau Tran, Pierre Andrews, Necip Fazil Ayan, Shruti Bhosale, Sergey Edunov, Angela Fan, Cynthia Gao, Vedanuj Goswami, Francisco Guzmán, Philipp Koehn, Alexandre Mourachko, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Jeff Wang}, title = {No Language Left Behind: Scaling Human-Centered Machine Translation}, year = {2022} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Toxicity-200数据集的构建,旨在覆盖广泛的语言范围,以检测文本中的毒性内容。该数据集的构建方式涉及搜集并整理了在200种语言中频繁出现的具有攻击性的词汇和短语,这些内容通常涵盖了常用的亵渎语、侮辱性及仇恨言论、色情词汇,以及与性行为相关的身体部位术语。
特点
该数据集显著的特点在于其语言多样性,覆盖了包括ind、ace、bjn、bug、jav等在内的多种语言,能够为研究人员提供在不同文化和社会背景下毒性内容的检测基准。此外,Toxicity-200数据集采用CC-BY-SA 4.0协议授权,保证了数据集的开放性和可访问性。
使用方法
使用该数据集时,用户可以通过`datasets`库或`seacrowd`库来加载。通过`datasets`库加载数据集时,仅需一行代码即可实现;而使用`seacrowd`库,则提供了更多配置选项,用户可以根据需要加载不同的数据子集。详细的加载指南和库的使用说明可在相关GitHub页面和文档中找到。
背景与挑战
背景概述
Toxicity-200数据集,由SEACrowd团队于2024年6月20日创建,是一个覆盖200种语言的词汇列表,旨在检测语言中的毒性。该数据集包含的词汇和短语通常被认为具有攻击性,包括常见的亵渎语、侮辱和仇恨言论、色情术语以及与性行为相关的身体部位术语。SEACrowd/toxicity_200的构建,为多语言环境中的毒性检测提供了重要资源,对自然语言处理领域,尤其是在东南亚洲语言的处理上,产生了显著影响。
当前挑战
SEACrowd/toxicity_200数据集在构建过程中面临的主要挑战包括:跨语言和文化的毒性定义差异,导致难以统一标准;多语言数据收集和标注的复杂性;以及如何保证数据集的覆盖面和准确性,以适应不断变化的网络语言环境。此外,数据集在解决领域问题,如仇恨言论检测、网络暴力监控等方面,还需应对如何平衡言论自由与保护用户免受伤害的挑战。
常用场景
经典使用场景
在当今多元化和全球化语言环境中, Toxicity-200 数据集的构建旨在为研究者在200种语言中检测毒性内容提供有力工具。该数据集最经典的使用场景便是作为自然语言处理模型训练的一部分,用于识别和过滤文本中的不当言论,包括亵渎、侮辱、仇恨言论以及涉及色情和性行为的词汇。
解决学术问题
Toxicity-200 数据集解决了多语言环境中内容审查和毒性检测的难题,为跨语言研究提供了统一的标准和资源。它使得研究者能够在不同的文化和语言背景下,对毒性内容进行定量分析和模型评估,从而推动网络环境的健康和谐。
衍生相关工作
基于 Toxicity-200 数据集,研究者们衍生出了多项相关的工作,包括构建更加精确的毒性检测模型、跨语言毒性趋势分析以及文化差异性研究,这些工作进一步拓展了数据集的应用范围,并促进了相关领域的学术交流与进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录