ToxicCommons-balanced|文本分类数据集|有害内容检测数据集

huggingface2024-11-28 更新2024-12-12 收录

文本分类

有害内容检测

下载链接：

https://huggingface.co/datasets/tcapelle/ToxicCommons-balanced

下载链接

链接失效反馈

资源简介：

该数据集包含多个特征，包括文本、评分、种族起源、性别、宗教、能力和暴力倾向的布尔值。数据集分为训练集和测试集，分别包含1128368和59388个样本。数据集的总下载大小为1519683100字节，总大小为2084315319.4094079字节。数据集配置为默认配置，数据文件路径分别为data/train-*和data/test-*。

创建时间：

2024-11-27

原始信息汇总

ToxicCommons-balanced 数据集概述

数据集信息

特征

text: 文本内容，数据类型为字符串。
scores: 分数序列，数据类型为整数。
race_origin: 种族/起源，数据类型为布尔值。
gender_sex: 性别，数据类型为布尔值。
religion: 宗教，数据类型为布尔值。
ability: 能力，数据类型为布尔值。
violence: 暴力，数据类型为布尔值。

数据分割

train: 训练集，包含1128368个样本，大小为1980099202.4720185字节。
test: 测试集，包含59388个样本，大小为104216116.93738943字节。

数据集大小

下载大小: 1519683100字节
数据集总大小: 2084315319.4094079字节

配置

config_name: default
- data_files:
  - train: 数据路径为 data/train-*
  - test: 数据路径为 data/test-*

AI搜集汇总

数据集介绍

构建方式

ToxicCommons-balanced数据集的构建基于对大规模文本数据的深度分析与标注。该数据集从多样化的在线平台中采集原始文本，并通过多维度的人工标注与自动化工具相结合的方式，对文本中的毒性内容进行细致分类。标注过程中，特别关注了种族、性别、宗教、能力及暴力等敏感维度，确保了数据的全面性与代表性。数据集的平衡性通过精心设计的采样策略得以实现，避免了类别分布不均的问题。

使用方法

ToxicCommons-balanced数据集适用于多种自然语言处理任务，尤其是毒性检测与内容分类。研究者可通过加载数据集的分割文件，直接获取训练集与测试集，用于模型训练与性能评估。数据集的多维度标注信息为模型提供了细粒度的监督信号，支持多任务学习与联合建模。在使用过程中，建议结合具体研究目标，对标注信息进行针对性分析，以充分发挥数据集的价值。

背景与挑战

背景概述

ToxicCommons-balanced数据集是一个专注于检测和分类在线文本中涉及种族、性别、宗教、能力和暴力等敏感话题的毒性内容的数据集。该数据集的创建旨在为自然语言处理领域的研究人员提供一个平衡且多样化的资源，以训练和评估毒性检测模型。通过包含多个维度的标注信息，如种族起源、性别、宗教等，该数据集能够帮助研究人员更全面地理解和分析在线文本中的毒性内容。ToxicCommons-balanced的构建反映了当前社会对在线言论监管和内容过滤的迫切需求，尤其是在社交媒体和在线论坛等平台上，毒性内容的泛滥已成为一个亟待解决的问题。

当前挑战

ToxicCommons-balanced数据集在解决在线文本毒性检测问题时面临多重挑战。首先，毒性内容的定义和标注具有高度主观性，不同文化和社会背景下的理解可能存在显著差异，这导致数据标注的一致性和准确性难以保证。其次，数据集的构建过程中需要处理大量的文本数据，如何在不引入偏见的情况下进行数据采样和平衡是一个复杂的技术难题。此外，毒性内容的多样性和复杂性使得模型在识别和分类时容易产生误判，尤其是在涉及多维度标注的情况下，模型的泛化能力和鲁棒性面临严峻考验。这些挑战不仅影响了数据集的构建质量，也对后续模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

ToxicCommons-balanced数据集在自然语言处理领域中被广泛用于检测和分类文本中的毒性内容。通过其丰富的标注信息，研究人员能够深入分析不同维度下的毒性表达，如种族、性别、宗教等，从而为社交媒体平台提供更为精准的内容审核工具。

解决学术问题

该数据集有效解决了文本毒性检测中的多维度分类问题。传统的毒性检测模型往往难以区分不同类别的毒性内容，而ToxicCommons-balanced通过详细的标注信息，帮助研究人员构建更为精细的分类模型，提升了检测的准确性和鲁棒性。

实际应用

在实际应用中，ToxicCommons-balanced数据集被广泛应用于社交媒体平台的内容审核系统。通过该数据集训练的模型能够自动识别并过滤具有种族歧视、性别偏见、宗教攻击等内容的文本，从而维护网络环境的健康与和谐。

数据集最近研究

最新研究方向

在社交媒体内容审核与情感分析领域，ToxicCommons-balanced数据集因其对多种社会敏感话题的标注而备受关注。该数据集不仅涵盖了文本内容，还详细标注了种族、性别、宗教、能力及暴力等多个维度的评分，为研究者提供了多维度的分析视角。近年来，随着人工智能在内容审核中的应用日益广泛，如何有效识别和过滤有害信息成为研究热点。ToxicCommons-balanced数据集的出现，为开发更精准的文本分类模型和情感分析算法提供了重要支持。特别是在跨文化、跨语言的社交媒体环境中，该数据集的多维度标注有助于提升模型对复杂社会语境的理解能力，从而推动内容审核技术的进一步发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取；气象实测数据从气象站获取，气象站建于电站30号箱变附近，每5分钟将采集的数据通过光纤传输到机房；数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统（包括30TF计算刀片机、250TB并行存储）进行中尺度模式计算后输出预报产品，每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国行政区划数据

本项目为中国行政区划数据，包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局，存储格式为sqlite3 db文件，支持直接使用数据库连接工具打开。

github 收录