five

wu981526092/MGSD

收藏
Hugging Face2023-08-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wu981526092/MGSD
下载链接
链接失效反馈
官方服务:
资源简介:
MULTI-GRAIN STEREOTYPE DATASET (MGSD)是一个全面的数据集,旨在研究和分析自然语言处理中的刻板印象。它提供了句子和标记级别的详细注释,适用于多种刻板印象检测的研究和应用。数据集包含多个列,如带有标记的文本、无标记的文本、标签、刻板印象类型、二元分类、多类分类以及数据来源。

MULTI-GRAIN STEREOTYPE DATASET (MGSD)是一个全面的数据集,旨在研究和分析自然语言处理中的刻板印象。它提供了句子和标记级别的详细注释,适用于多种刻板印象检测的研究和应用。数据集包含多个列,如带有标记的文本、无标记的文本、标签、刻板印象类型、二元分类、多类分类以及数据来源。
提供机构:
wu981526092
原始信息汇总

MULTI-GRAIN STEREOTYPE DATASET (MGSD)

概述

MULTI-GRAIN STEREOTYPE DATASET (MGSD) 是一个专为自然语言处理中刻板印象研究和分析设计的综合数据集。它提供了句子级和词级粒度的注释,支持多种刻板印象检测的研究和应用。

数据集结构

数据集包含以下列:

  • text_with_marker: 包含原始文本,使用标记(===)突出显示潜在的刻板印象词。
  • text_no_marker: 不包含任何标记的文本,适用于句子级操作的模型。
  • label: 指示句子是否为刻板印象、反刻板印象或无关。
  • stereotype_type: 描述刻板印象的类型,如种族、性别、职业。
  • binary_class: 刻板印象的二元分类,如刻板印象种族、无关。
  • multi_class: 刻板印象的多类分类标签,如刻板印象种族、刻板印象性别。
  • original_dataset: 数据来源。

使用场景

数据集可用于训练多种模型:

  1. 句子级刻板印象检测: 使用text_no_marker列作为输入,binary_labelmulti_label作为目标。
  2. 词级刻板印象检测: 使用text_with_marker识别句子中词的位置。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作