wu981526092/MGSD

Name: wu981526092/MGSD
Creator: wu981526092
Published: 2023-08-26 06:22:56
License: 暂无描述

Hugging Face2023-08-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/wu981526092/MGSD

下载链接

链接失效反馈

官方服务：

资源简介：

MULTI-GRAIN STEREOTYPE DATASET (MGSD)是一个全面的数据集，旨在研究和分析自然语言处理中的刻板印象。它提供了句子和标记级别的详细注释，适用于多种刻板印象检测的研究和应用。数据集包含多个列，如带有标记的文本、无标记的文本、标签、刻板印象类型、二元分类、多类分类以及数据来源。

提供机构：

wu981526092

原始信息汇总

MULTI-GRAIN STEREOTYPE DATASET (MGSD)

概述

MULTI-GRAIN STEREOTYPE DATASET (MGSD) 是一个专为自然语言处理中刻板印象研究和分析设计的综合数据集。它提供了句子级和词级粒度的注释，支持多种刻板印象检测的研究和应用。

数据集结构

数据集包含以下列：

text_with_marker: 包含原始文本，使用标记(===)突出显示潜在的刻板印象词。
text_no_marker: 不包含任何标记的文本，适用于句子级操作的模型。
label: 指示句子是否为刻板印象、反刻板印象或无关。
stereotype_type: 描述刻板印象的类型，如种族、性别、职业。
binary_class: 刻板印象的二元分类，如刻板印象种族、无关。
multi_class: 刻板印象的多类分类标签，如刻板印象种族、刻板印象性别。
original_dataset: 数据来源。

使用场景

数据集可用于训练多种模型：

句子级刻板印象检测: 使用text_no_marker列作为输入，binary_label或multi_label作为目标。
词级刻板印象检测: 使用text_with_marker识别句子中词的位置。

5,000+

优质数据集

54 个

任务类型

进入经典数据集