WHOSAIDIT
收藏WhoSaidIt 数据集概述
WhoSaidIt 是一个多语言文本数据集,用于基于文本的说话者属性分类任务。给定一段短文本(句子或对话),模型需预测表示说话者特征的二元标签,如性别、年龄组、父母身份、饮食偏好和性格特质。
数据集基本信息
| 属性 | 值 |
|---|---|
| 语言 | 英语、西班牙语、意大利语、韩语、中文 |
| 标签 | 9 个二元属性 |
| 每个标签的样本数 | 400 |
| 总样本数 | 3,600 |
| 格式 | CSV(每个标签一个文件) |
该数据集的每个标签是独立采样的,因此同一文本可能出现在多个文件中,但各文件不共享同一组文本。
标签定义
| 文件名 | 标签 | 通用定义 |
|---|---|---|
male.csv |
male | 说话者自我认同为男性。 |
female.csv |
female | 说话者自我认同为女性。 |
child.csv |
child | 说话者是儿童或青少年。 |
adult.csv |
adult | 说话者是成年人,或句子涉及成人主题(如饮用酒精或含咖啡因饮料)。 |
elderly.csv |
elderly | 说话者是老年人或被认定为祖父母。 |
parent.csv |
parent | 说话者陈述或暗示有孩子,但不表示是老年人或祖父母(避免与 elderly 标签重叠)。 |
meat-eater.csv |
meat-eater | 说话者食用肉类、禽类、海鲜或鸡蛋(乳制品除外)。 |
vegetarian.csv |
vegetarian | 句子明确陈述或暗示说话者是素食者。 |
serious.csv |
serious | 句子涉及严肃或负面主题,如死亡、疾病、犯罪或悲伤。 |
这些是高级标签定义。实际应用中,每个标签都有额外的具体要求、边界情况和精确率-召回率权衡,详见发布的提示和理由。某些标签存在设计上的依赖关系,例如 parent 和 elderly 与 adult 同时出现,而互斥对(如 male/female、meat-eater/vegetarian、parent/elderly)不应在同一实例中同时标记为 1。
数据格式
每个 CSV 文件包含三列:
| 列名 | 类型 | 描述 |
|---|---|---|
language |
字符串 | 文本的语言(English、Spanish、Italian、Korean、Chinese) |
text |
字符串 | 需要分类的短输入文本 |
true_label |
整数 | 二元标签:1(属性存在)或 0(属性不存在) |
提示文件
prompts/ 目录包含论文中使用的 LLM 分类提示文件,每个标签一个 JSON 文件。每个文件表示用于基准测试的聊天风格提示,包括系统指令和(在适用情况下)手动编写的上下文演示轮次。最终查询使用 {{language}} 和 {{text}} 作为输入语言和文本的占位符。不同标签的提示格式可能略有不同,因为每个标签都有其自己的理由、边界情况、输出格式和精确率-召回率权衡。
数据统计
此发布版本(5 种公开语言)中每个标签的分布:
| 标签 | 正例 (1) | 负例 (0) | 总计 |
|---|---|---|---|
| male | 96 | 304 | 400 |
| female | 69 | 331 | 400 |
| child | 116 | 284 | 400 |
| adult | 199 | 201 | 400 |
| elderly | 93 | 307 | 400 |
| parent | 171 | 229 | 400 |
| meat-eater | 194 | 206 | 400 |
| vegetarian | 91 | 309 | 400 |
| serious | 200 | 200 | 400 |
许可协议
数据集文件和提示文件采用 CC BY-NC 4.0 许可协议。
引用
如需引用,请参考以下 BibTeX 格式:
@misc{gao2026whosaidithumanllmcollaborativeannotation, title={WhoSaidIt: Human-LLM Collaborative Annotation for Text-Based Multilingual Speaker-Attribute Classification}, author={Lingyu Gao and Will Monroe and David Smith and Meghan Jemison and Jackie Lee}, year={2026}, eprint={2605.26070}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2605.26070}, }

- 1WhoSaidIt: Human-LLM Collaborative Annotation for Text-Based Multilingual Speaker-Attribute Classification多邻国 · 2026年



