ToxicCommons-balanced

Hugging Face2024-11-28 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/tcapelle/ToxicCommons-balanced

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，包括文本、评分、种族起源、性别、宗教、能力和暴力倾向的布尔值。数据集分为训练集和测试集，分别包含1128368和59388个样本。数据集的总下载大小为1519683100字节，总大小为2084315319.4094079字节。数据集配置为默认配置，数据文件路径分别为data/train-*和data/test-*。

This dataset includes multiple features, such as text, ratings, and boolean values for ethnic origin, gender, religion, ability, and violent tendency. It is divided into training and test sets, which contain 1,128,368 and 59,388 samples respectively. The total download size of the dataset is 1,519,683,100 bytes, and the total storage size is 2,084,315,319.4094079 bytes. The dataset adopts the default configuration, and its data file paths are data/train-* and data/test-* respectively.

创建时间：

2024-11-27

原始信息汇总

ToxicCommons-balanced 数据集概述

数据集信息

特征

text: 文本内容，数据类型为字符串。
scores: 分数序列，数据类型为整数。
race_origin: 种族/起源，数据类型为布尔值。
gender_sex: 性别，数据类型为布尔值。
religion: 宗教，数据类型为布尔值。
ability: 能力，数据类型为布尔值。
violence: 暴力，数据类型为布尔值。

数据分割

train: 训练集，包含1128368个样本，大小为1980099202.4720185字节。
test: 测试集，包含59388个样本，大小为104216116.93738943字节。

数据集大小

下载大小: 1519683100字节
数据集总大小: 2084315319.4094079字节

配置

config_name: default
- data_files:
  - train: 数据路径为 data/train-*
  - test: 数据路径为 data/test-*

搜集汇总

数据集介绍

构建方式

ToxicCommons-balanced数据集的构建基于对大规模文本数据的深度分析与标注。该数据集从多样化的在线平台中采集原始文本，并通过多维度的人工标注与自动化工具相结合的方式，对文本中的毒性内容进行细致分类。标注过程中，特别关注了种族、性别、宗教、能力及暴力等敏感维度，确保了数据的全面性与代表性。数据集的平衡性通过精心设计的采样策略得以实现，避免了类别分布不均的问题。

使用方法

ToxicCommons-balanced数据集适用于多种自然语言处理任务，尤其是毒性检测与内容分类。研究者可通过加载数据集的分割文件，直接获取训练集与测试集，用于模型训练与性能评估。数据集的多维度标注信息为模型提供了细粒度的监督信号，支持多任务学习与联合建模。在使用过程中，建议结合具体研究目标，对标注信息进行针对性分析，以充分发挥数据集的价值。

背景与挑战

背景概述

ToxicCommons-balanced数据集是一个专注于检测和分类在线文本中涉及种族、性别、宗教、能力和暴力等敏感话题的毒性内容的数据集。该数据集的创建旨在为自然语言处理领域的研究人员提供一个平衡且多样化的资源，以训练和评估毒性检测模型。通过包含多个维度的标注信息，如种族起源、性别、宗教等，该数据集能够帮助研究人员更全面地理解和分析在线文本中的毒性内容。ToxicCommons-balanced的构建反映了当前社会对在线言论监管和内容过滤的迫切需求，尤其是在社交媒体和在线论坛等平台上，毒性内容的泛滥已成为一个亟待解决的问题。

当前挑战

ToxicCommons-balanced数据集在解决在线文本毒性检测问题时面临多重挑战。首先，毒性内容的定义和标注具有高度主观性，不同文化和社会背景下的理解可能存在显著差异，这导致数据标注的一致性和准确性难以保证。其次，数据集的构建过程中需要处理大量的文本数据，如何在不引入偏见的情况下进行数据采样和平衡是一个复杂的技术难题。此外，毒性内容的多样性和复杂性使得模型在识别和分类时容易产生误判，尤其是在涉及多维度标注的情况下，模型的泛化能力和鲁棒性面临严峻考验。这些挑战不仅影响了数据集的构建质量，也对后续模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

ToxicCommons-balanced数据集在自然语言处理领域中被广泛用于检测和分类文本中的毒性内容。通过其丰富的标注信息，研究人员能够深入分析不同维度下的毒性表达，如种族、性别、宗教等，从而为社交媒体平台提供更为精准的内容审核工具。

解决学术问题

该数据集有效解决了文本毒性检测中的多维度分类问题。传统的毒性检测模型往往难以区分不同类别的毒性内容，而ToxicCommons-balanced通过详细的标注信息，帮助研究人员构建更为精细的分类模型，提升了检测的准确性和鲁棒性。

实际应用

在实际应用中，ToxicCommons-balanced数据集被广泛应用于社交媒体平台的内容审核系统。通过该数据集训练的模型能够自动识别并过滤具有种族歧视、性别偏见、宗教攻击等内容的文本，从而维护网络环境的健康与和谐。

数据集最近研究