elaine1wan/Language-Agency-Classification
收藏Hugging Face2024-03-15 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/elaine1wan/Language-Agency-Classification
下载链接
链接失效反馈官方服务:
资源简介:
Language Agency Classifier数据集由Wan等人于2023年创建,旨在为训练模型提供数据,以分类句子中表达的主观能动性水平。该数据集来源于Bias in Bios数据集,并通过ChatGPT重新生成了偏向于agentic(自我/领导导向)和communal(社区导向)语言风格的句子。数据集包含训练、测试和验证集,分别有192、60和48个样本。分类句子中的主观能动性有助于揭示潜在的性别偏见,例如女性可能被描述为更具社区导向的词汇,而男性可能被描述为更具自我/领导导向的词汇。
Language Agency Classifier数据集由Wan等人于2023年创建,旨在为训练模型提供数据,以分类句子中表达的主观能动性水平。该数据集来源于Bias in Bios数据集,并通过ChatGPT重新生成了偏向于agentic(自我/领导导向)和communal(社区导向)语言风格的句子。数据集包含训练、测试和验证集,分别有192、60和48个样本。分类句子中的主观能动性有助于揭示潜在的性别偏见,例如女性可能被描述为更具社区导向的词汇,而男性可能被描述为更具自我/领导导向的词汇。
提供机构:
elaine1wan
原始信息汇总
Language Agency Classifier Dataset 概述
数据集创建者与目的
- 创建者: Wan et al., 2023
- 目的: 用于训练模型,以分类句子中表达的行动者水平。
数据集内容
- 数据来源: 初始数据采样自 Bias in Bios 数据集,该数据集来源于 Common Crawl 的在线传记。
- 数据处理: 使用 ChatGPT 将原始传记重写为两种风格:一种倾向于行动者语言风格,另一种倾向于社区导向语言风格。
示例对比
- 原始传记: 描述了 Lee Dykxhoorn 的职业和教育背景。
- 行动者风格重写: 强调效率、自信和卓越。
- 社区导向风格重写: 强调同情、温暖和团队合作。
数据集结构
- 样本数量: 训练集包含192个样本,测试集60个样本,验证集48个样本。
- 数据格式: 每个样本包含 "text" 和 "label" 两列,其中 "label" 为1表示行动者风格,0表示社区导向风格。
数据集加载
agency_train = load_dataset("Language-Agency-Classifier", split="train") agency_test = load_dataset("Language-Agency-Classifier", split="test") agency_val = load_dataset("Language-Agency-Classifier", split="val")
数据集引用
bibtex @misc{wan2023kelly, title={"Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in LLM-Generated Reference Letters}, author={Yixin Wan and George Pu and Jiao Sun and Aparna Garimella and Kai-Wei Chang and Nanyun Peng}, year={2023}, eprint={2310.09219}, archivePrefix={arXiv}, primaryClass={cs.CL} }



