elaine1wan/Language-Agency-Classification

Name: elaine1wan/Language-Agency-Classification
Creator: elaine1wan
Published: 2024-03-15 20:18:34
License: 暂无描述

Hugging Face2024-03-15 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/elaine1wan/Language-Agency-Classification

下载链接

链接失效反馈

官方服务：

资源简介：

Language Agency Classifier数据集由Wan等人于2023年创建，旨在为训练模型提供数据，以分类句子中表达的主观能动性水平。该数据集来源于Bias in Bios数据集，并通过ChatGPT重新生成了偏向于agentic（自我/领导导向）和communal（社区导向）语言风格的句子。数据集包含训练、测试和验证集，分别有192、60和48个样本。分类句子中的主观能动性有助于揭示潜在的性别偏见，例如女性可能被描述为更具社区导向的词汇，而男性可能被描述为更具自我/领导导向的词汇。

提供机构：

elaine1wan

原始信息汇总

Language Agency Classifier Dataset 概述

数据集创建者与目的

创建者: Wan et al., 2023
目的: 用于训练模型，以分类句子中表达的行动者水平。

数据集内容

数据来源: 初始数据采样自 Bias in Bios 数据集，该数据集来源于 Common Crawl 的在线传记。
数据处理: 使用 ChatGPT 将原始传记重写为两种风格：一种倾向于行动者语言风格，另一种倾向于社区导向语言风格。

示例对比

原始传记: 描述了 Lee Dykxhoorn 的职业和教育背景。
行动者风格重写: 强调效率、自信和卓越。
社区导向风格重写: 强调同情、温暖和团队合作。

数据集结构

样本数量: 训练集包含192个样本，测试集60个样本，验证集48个样本。
数据格式: 每个样本包含 "text" 和 "label" 两列，其中 "label" 为1表示行动者风格，0表示社区导向风格。

数据集加载

agency_train = load_dataset("Language-Agency-Classifier", split="train") agency_test = load_dataset("Language-Agency-Classifier", split="test") agency_val = load_dataset("Language-Agency-Classifier", split="val")

数据集引用

bibtex @misc{wan2023kelly, title={"Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in LLM-Generated Reference Letters}, author={Yixin Wan and George Pu and Jiao Sun and Aparna Garimella and Kai-Wei Chang and Nanyun Peng}, year={2023}, eprint={2310.09219}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集