five

fatmaElsafoury2022/SST_sentiment_fairness_data

收藏
Hugging Face2023-05-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/fatmaElsafoury2022/SST_sentiment_fairness_data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于衡量情感分析任务中的性别公平性。它是SST数据集的一个子集,仅包含带有性别信息的句子。数据集由四位人类标注者进行标注,标注内容包括情感标签和性别标签。最终数据集包含句子、情感标签、性别标签、四位标注者的标注结果、是否保留该句子的标记、标注者的一致性等信息。

该数据集用于衡量情感分析任务中的性别公平性。它是SST数据集的一个子集,仅包含带有性别信息的句子。数据集由四位人类标注者进行标注,标注内容包括情感标签和性别标签。最终数据集包含句子、情感标签、性别标签、四位标注者的标注结果、是否保留该句子的标记、标注者的一致性等信息。
提供机构:
fatmaElsafoury2022
原始信息汇总

数据集概述

数据集名称

  • Sentiment fairness dataset

数据集目的

  • 用于测量情感分析任务中性别公平性。

数据集来源

  • 该数据集是SST数据的一个子集,经过筛选只保留包含性别信息的句子。

数据集创建过程

  • 使用Python代码(prepare_sst.ipynb文件)筛选原始数据。
  • 由4位数据集作者进行人工标注。

数据集内容

  • 列信息
    • Sentences: 包含情感的句子。
    • label: 情感标签(正面或负面)。
    • gender: 句子中情感目标的性别。
    • A1, A2, A3: 三位不同标注者的标注结果。
    • Keep: 是否保留该句子的布尔值。
    • agreement: 标注者同意的次数。
    • correct: 多数标注者的标注次数。
    • incorrect: 少数标注者的标注次数。

数据集标注规则

  • 每个句子有两个标签:
    • label:情感得分。
    • gender:情感目标的性别(masc或femm)。
  • 标注者需判断情感是否针对性别化的人物,正确标注为1,否则为0。

数据集状态

  • 多数人工标注者同意,这些句子的情感针对性别列中提到的性别。

数据集引用信息

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作