sbf-collated

Hugging Face2024-12-16 更新2024-12-17 收录

下载链接：

https://huggingface.co/datasets/anoaky/sbf-collated

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个配置：intentYN、offensiveYN和sexYN。每个配置都包含一个文本特征'post'和一个标签特征（intentYN、offensiveYN或sexYN）。数据集分为训练、验证和测试集，每个集都有相应的样本数量和字节大小。数据集的语言为英语，任务类别包括文本分类和文本生成，数据集大小在10K到100K之间。数据集是从allenai/social_bias_frames转换而来的，每个帖子的标签是三个注释者响应的平均值。

This dataset contains three configurations: intentYN, offensiveYN, and sexYN. Each configuration includes a text feature named 'post' and a corresponding label feature (intentYN, offensiveYN, or sexYN). The dataset is divided into training, validation, and test splits, each with a respective number of samples and size in bytes. The dataset is in English, with task categories covering text classification and text generation, and its size ranges from 10K to 100K samples. It is converted from the allenai/social_bias_frames dataset, where the label for each post is the average of responses from three annotators.

创建时间：

2024-12-16

原始信息汇总

数据集概述

数据集信息

配置 `intentYN`

特征:
- post: 类型为 string
- intentYN: 类型为 float64
分割:
- test: 572415 字节, 4698 样本
- validation: 567703 字节, 4673 样本
- train: 4343823 字节, 35504 样本
下载大小: 3581744 字节
数据集大小: 5483941 字节

配置 `offensiveYN`

特征:
- post: 类型为 string
- offensiveYN: 类型为 float64
分割:
- validation: 567703 字节, 4673 样本
- test: 572415 字节, 4698 样本
- train: 4343823 字节, 35504 样本
下载大小: 3543058 字节
数据集大小: 5483941 字节

配置 `sexYN`

特征:
- post: 类型为 string
- sexYN: 类型为 float64
分割:
- validation: 567703 字节, 4673 样本
- train: 4343823 字节, 35504 样本
- test: 572415 字节, 4698 样本
下载大小: 3555904 字节
数据集大小: 5483941 字节

配置 `speakerMinorityYN`

特征:
- post: 类型为 string
- speakerMinorityYN: 类型为 float64
分割:
- validation: 567703 字节, 4673 样本
- test: 572415 字节, 4698 样本
- train: 4343823 字节, 35504 样本
下载大小: 3528468 字节
数据集大小: 5483941 字节

数据文件

配置 intentYN:
- test: intentYN/test-*
- validation: intentYN/validation-*
- train: intentYN/train-*
配置 offensiveYN:
- validation: offensiveYN/validation-*
- test: offensiveYN/test-*
- train: offensiveYN/train-*
配置 sexYN:
- validation: sexYN/validation-*
- train: sexYN/train-*
- test: sexYN/test-*
配置 speakerMinorityYN:
- validation: speakerMinorityYN/validation-*
- test: speakerMinorityYN/test-*
- train: speakerMinorityYN/train-*

任务类别

文本分类
文本生成

语言

英语

数据集大小类别

10K < n < 100K

来源

转换自 allenai/social_bias_frames，每个帖子的三个标注者响应被平均。

搜集汇总

数据集介绍

构建方式

sbf-collated数据集的构建基于[allenai/social_bias_frames](https://huggingface.co/datasets/allenai/social_bias_frames)，通过对每个帖子的三名标注者的响应进行平均处理，从而生成最终的标注结果。该数据集包含多个配置，如intentYN、offensiveYN、sexYN和speakerMinorityYN，每个配置均包含训练、验证和测试三个数据集划分，确保了数据集的多样性和全面性。

特点

sbf-collated数据集的主要特点在于其多维度的标注配置，涵盖了意图识别、冒犯性检测、性别相关性以及发言者是否为少数群体等多个社会偏见相关的分类任务。此外，数据集的标注结果通过多标注者的平均处理，增强了标注的可靠性和一致性，使其在社会偏见研究领域具有较高的实用价值。

使用方法

sbf-collated数据集适用于文本分类和文本生成任务，用户可以根据具体的研究需求选择不同的配置进行模型训练和评估。数据集提供了详细的训练、验证和测试集划分，用户可以通过HuggingFace的Datasets库轻松加载和处理数据，结合相应的机器学习框架进行模型开发和实验。

背景与挑战

背景概述

sbf-collated数据集源自于allenai/social_bias_frames项目，专注于社会偏见与言论分析领域。该数据集的核心研究问题在于通过文本内容识别和分类社会偏见，如意图、攻击性、性别相关性及发言者是否为少数群体等。通过平均三位标注者的反馈，sbf-collated数据集提供了高质量的标注数据，旨在推动自然语言处理技术在社会偏见检测中的应用。其创建时间虽未明确，但作为allenai的重要项目之一，该数据集对社会偏见研究领域具有显著影响力。

当前挑战

sbf-collated数据集在构建过程中面临多重挑战。首先，社会偏见的定义和识别具有主观性，不同标注者可能存在理解差异，导致标注一致性问题。其次，数据集涉及敏感话题，如性别和种族，如何在确保数据隐私和伦理的前提下进行标注和使用是一大挑战。此外，数据集的多样性和代表性也是关键问题，确保不同社会背景和文化下的言论都能被充分涵盖和分析，以提高模型的泛化能力。

常用场景

经典使用场景

sbf-collated数据集在自然语言处理领域中，主要用于文本分类任务，特别是针对社交媒体内容的意图、冒犯性、性别倾向以及发言者是否属于少数群体的分类。通过分析社交媒体帖子，模型可以识别出这些特征，从而为后续的情感分析、内容过滤和用户行为研究提供基础数据支持。

衍生相关工作

基于sbf-collated数据集，研究者们开发了多种文本分类模型，并在社交媒体分析、情感计算等领域取得了显著成果。例如，有研究利用该数据集训练深度学习模型，以提高对社交媒体内容中隐含偏见的识别能力。此外，该数据集还为跨文化社交媒体分析提供了重要参考，推动了全球范围内的社交媒体研究。

数据集最近研究