wu981526092/MGSD
收藏Hugging Face2023-08-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wu981526092/MGSD
下载链接
链接失效反馈官方服务:
资源简介:
MULTI-GRAIN STEREOTYPE DATASET (MGSD)是一个全面的数据集,旨在研究和分析自然语言处理中的刻板印象。它提供了句子和标记级别的详细注释,适用于多种刻板印象检测的研究和应用。数据集包含多个列,如带有标记的文本、无标记的文本、标签、刻板印象类型、二元分类、多类分类以及数据来源。
MULTI-GRAIN STEREOTYPE DATASET (MGSD)是一个全面的数据集,旨在研究和分析自然语言处理中的刻板印象。它提供了句子和标记级别的详细注释,适用于多种刻板印象检测的研究和应用。数据集包含多个列,如带有标记的文本、无标记的文本、标签、刻板印象类型、二元分类、多类分类以及数据来源。
提供机构:
wu981526092
原始信息汇总
MULTI-GRAIN STEREOTYPE DATASET (MGSD)
概述
MULTI-GRAIN STEREOTYPE DATASET (MGSD) 是一个专为自然语言处理中刻板印象研究和分析设计的综合数据集。它提供了句子级和词级粒度的注释,支持多种刻板印象检测的研究和应用。
数据集结构
数据集包含以下列:
- text_with_marker: 包含原始文本,使用标记(
===)突出显示潜在的刻板印象词。 - text_no_marker: 不包含任何标记的文本,适用于句子级操作的模型。
- label: 指示句子是否为刻板印象、反刻板印象或无关。
- stereotype_type: 描述刻板印象的类型,如种族、性别、职业。
- binary_class: 刻板印象的二元分类,如刻板印象种族、无关。
- multi_class: 刻板印象的多类分类标签,如刻板印象种族、刻板印象性别。
- original_dataset: 数据来源。
使用场景
数据集可用于训练多种模型:
- 句子级刻板印象检测: 使用
text_no_marker列作为输入,binary_label或multi_label作为目标。 - 词级刻板印象检测: 使用
text_with_marker识别句子中词的位置。



