five

ToxicCommons-balanced|文本分类数据集|有害内容检测数据集

收藏
huggingface2024-11-28 更新2024-12-12 收录
文本分类
有害内容检测
下载链接:
https://huggingface.co/datasets/tcapelle/ToxicCommons-balanced
下载链接
链接失效反馈
资源简介:
该数据集包含多个特征,包括文本、评分、种族起源、性别、宗教、能力和暴力倾向的布尔值。数据集分为训练集和测试集,分别包含1128368和59388个样本。数据集的总下载大小为1519683100字节,总大小为2084315319.4094079字节。数据集配置为默认配置,数据文件路径分别为data/train-*和data/test-*。
创建时间:
2024-11-27
原始信息汇总

ToxicCommons-balanced 数据集概述

数据集信息

特征

  • text: 文本内容,数据类型为字符串。
  • scores: 分数序列,数据类型为整数。
  • race_origin: 种族/起源,数据类型为布尔值。
  • gender_sex: 性别,数据类型为布尔值。
  • religion: 宗教,数据类型为布尔值。
  • ability: 能力,数据类型为布尔值。
  • violence: 暴力,数据类型为布尔值。

数据分割

  • train: 训练集,包含1128368个样本,大小为1980099202.4720185字节。
  • test: 测试集,包含59388个样本,大小为104216116.93738943字节。

数据集大小

  • 下载大小: 1519683100字节
  • 数据集总大小: 2084315319.4094079字节

配置

  • config_name: default
    • data_files:
      • train: 数据路径为 data/train-*
      • test: 数据路径为 data/test-*
AI搜集汇总
数据集介绍
main_image_url
构建方式
ToxicCommons-balanced数据集的构建基于对大规模文本数据的深度分析与标注。该数据集从多样化的在线平台中采集原始文本,并通过多维度的人工标注与自动化工具相结合的方式,对文本中的毒性内容进行细致分类。标注过程中,特别关注了种族、性别、宗教、能力及暴力等敏感维度,确保了数据的全面性与代表性。数据集的平衡性通过精心设计的采样策略得以实现,避免了类别分布不均的问题。
使用方法
ToxicCommons-balanced数据集适用于多种自然语言处理任务,尤其是毒性检测与内容分类。研究者可通过加载数据集的分割文件,直接获取训练集与测试集,用于模型训练与性能评估。数据集的多维度标注信息为模型提供了细粒度的监督信号,支持多任务学习与联合建模。在使用过程中,建议结合具体研究目标,对标注信息进行针对性分析,以充分发挥数据集的价值。
背景与挑战
背景概述
ToxicCommons-balanced数据集是一个专注于检测和分类在线文本中涉及种族、性别、宗教、能力和暴力等敏感话题的毒性内容的数据集。该数据集的创建旨在为自然语言处理领域的研究人员提供一个平衡且多样化的资源,以训练和评估毒性检测模型。通过包含多个维度的标注信息,如种族起源、性别、宗教等,该数据集能够帮助研究人员更全面地理解和分析在线文本中的毒性内容。ToxicCommons-balanced的构建反映了当前社会对在线言论监管和内容过滤的迫切需求,尤其是在社交媒体和在线论坛等平台上,毒性内容的泛滥已成为一个亟待解决的问题。
当前挑战
ToxicCommons-balanced数据集在解决在线文本毒性检测问题时面临多重挑战。首先,毒性内容的定义和标注具有高度主观性,不同文化和社会背景下的理解可能存在显著差异,这导致数据标注的一致性和准确性难以保证。其次,数据集的构建过程中需要处理大量的文本数据,如何在不引入偏见的情况下进行数据采样和平衡是一个复杂的技术难题。此外,毒性内容的多样性和复杂性使得模型在识别和分类时容易产生误判,尤其是在涉及多维度标注的情况下,模型的泛化能力和鲁棒性面临严峻考验。这些挑战不仅影响了数据集的构建质量,也对后续模型的训练和评估提出了更高的要求。
常用场景
经典使用场景
ToxicCommons-balanced数据集在自然语言处理领域中被广泛用于检测和分类文本中的毒性内容。通过其丰富的标注信息,研究人员能够深入分析不同维度下的毒性表达,如种族、性别、宗教等,从而为社交媒体平台提供更为精准的内容审核工具。
解决学术问题
该数据集有效解决了文本毒性检测中的多维度分类问题。传统的毒性检测模型往往难以区分不同类别的毒性内容,而ToxicCommons-balanced通过详细的标注信息,帮助研究人员构建更为精细的分类模型,提升了检测的准确性和鲁棒性。
实际应用
在实际应用中,ToxicCommons-balanced数据集被广泛应用于社交媒体平台的内容审核系统。通过该数据集训练的模型能够自动识别并过滤具有种族歧视、性别偏见、宗教攻击等内容的文本,从而维护网络环境的健康与和谐。
数据集最近研究
最新研究方向
在社交媒体内容审核与情感分析领域,ToxicCommons-balanced数据集因其对多种社会敏感话题的标注而备受关注。该数据集不仅涵盖了文本内容,还详细标注了种族、性别、宗教、能力及暴力等多个维度的评分,为研究者提供了多维度的分析视角。近年来,随着人工智能在内容审核中的应用日益广泛,如何有效识别和过滤有害信息成为研究热点。ToxicCommons-balanced数据集的出现,为开发更精准的文本分类模型和情感分析算法提供了重要支持。特别是在跨文化、跨语言的社交媒体环境中,该数据集的多维度标注有助于提升模型对复杂社会语境的理解能力,从而推动内容审核技术的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

COVID-19 Data Hub

COVID-19 Data Hub是一个全球性的COVID-19数据集,包含了来自多个国家和地区的疫情数据,涵盖了病例数、死亡数、康复数、测试数等信息。此外,数据集还包括了与疫情相关的经济、社会和政策数据。

covid19datahub.io 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

LFW (Labeled Faces in the Wild)

Labeled Faces in the Wild,是一个人脸照片数据库,旨在研究无约束的人脸识别问题。该数据集包含从网络收集的超过 13,000 张人脸图像。每张脸都标有图中人物的名字。照片中的 1680 人在数据集中有两张或更多张不同的照片。这些人脸的唯一限制是它们是由 Viola-Jones 人脸检测器检测到的。更多细节可以在下面的技术报告中找到。

OpenDataLab 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录