five

elaine1wan/Language-Agency-Classification

收藏
Hugging Face2024-03-15 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/elaine1wan/Language-Agency-Classification
下载链接
链接失效反馈
官方服务:
资源简介:
Language Agency Classifier数据集由Wan等人于2023年创建,旨在为训练模型提供数据,以分类句子中表达的主观能动性水平。该数据集来源于Bias in Bios数据集,并通过ChatGPT重新生成了偏向于agentic(自我/领导导向)和communal(社区导向)语言风格的句子。数据集包含训练、测试和验证集,分别有192、60和48个样本。分类句子中的主观能动性有助于揭示潜在的性别偏见,例如女性可能被描述为更具社区导向的词汇,而男性可能被描述为更具自我/领导导向的词汇。

Language Agency Classifier数据集由Wan等人于2023年创建,旨在为训练模型提供数据,以分类句子中表达的主观能动性水平。该数据集来源于Bias in Bios数据集,并通过ChatGPT重新生成了偏向于agentic(自我/领导导向)和communal(社区导向)语言风格的句子。数据集包含训练、测试和验证集,分别有192、60和48个样本。分类句子中的主观能动性有助于揭示潜在的性别偏见,例如女性可能被描述为更具社区导向的词汇,而男性可能被描述为更具自我/领导导向的词汇。
提供机构:
elaine1wan
原始信息汇总

Language Agency Classifier Dataset 概述

数据集创建者与目的

  • 创建者: Wan et al., 2023
  • 目的: 用于训练模型,以分类句子中表达的行动者水平。

数据集内容

  • 数据来源: 初始数据采样自 Bias in Bios 数据集,该数据集来源于 Common Crawl 的在线传记。
  • 数据处理: 使用 ChatGPT 将原始传记重写为两种风格:一种倾向于行动者语言风格,另一种倾向于社区导向语言风格。

示例对比

  • 原始传记: 描述了 Lee Dykxhoorn 的职业和教育背景。
  • 行动者风格重写: 强调效率、自信和卓越。
  • 社区导向风格重写: 强调同情、温暖和团队合作。

数据集结构

  • 样本数量: 训练集包含192个样本,测试集60个样本,验证集48个样本。
  • 数据格式: 每个样本包含 "text" 和 "label" 两列,其中 "label" 为1表示行动者风格,0表示社区导向风格。

数据集加载

agency_train = load_dataset("Language-Agency-Classifier", split="train") agency_test = load_dataset("Language-Agency-Classifier", split="test") agency_val = load_dataset("Language-Agency-Classifier", split="val")

数据集引用

bibtex @misc{wan2023kelly, title={"Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in LLM-Generated Reference Letters}, author={Yixin Wan and George Pu and Jiao Sun and Aparna Garimella and Kai-Wei Chang and Nanyun Peng}, year={2023}, eprint={2310.09219}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作