WHOSAIDIT

arXiv2026-05-26 更新2026-05-27 收录

下载链接：

https://github.com/duolingo/whosaidit

下载链接

链接失效反馈

官方服务：

资源简介：

WHOSAIDIT是由多邻国研究团队构建的多语言说话者属性分类数据集，旨在解决仅基于文本推断说话者人口统计与个性特征时的跨语言一致性问题。该数据集涵盖英语、西班牙语等11种语言，包含性别、年龄、饮食偏好等9类二元属性标签，其公开子集包含3600条经过精细标注的短文本实例。数据构建采用人机协作的再标注框架，首先利用大语言模型从初始噪声语料中提炼标注理据，再通过专家审核与分歧聚焦采样进行针对性修订，以稳定跨文化语境下的主观标签边界。该数据集主要应用于多语言自然语言处理领域，为说话者属性分类、作者画像等任务提供基准，并探索人机协同标注在工业场景下的实践路径。

WHOSAIDIT is a multilingual speaker attribute classification dataset constructed by the Duolingo Research Team, aiming to address the cross-linguistic consistency issue when inferring speakers’ demographic and personality traits solely based on text. This dataset covers 11 languages including English and Spanish, and contains 9 categories of binary attribute labels such as gender, age, dietary preferences and more. Its public subset comprises 3,600 meticulously annotated short text instances. The dataset construction adopts a human-machine collaborative re-annotation framework: first, large language models (LLMs) are used to extract annotation rationales from the initial noisy corpus, followed by targeted revisions via expert review and disagreement-focused sampling to stabilize subjective label boundaries across cultural contexts. This dataset is primarily applied in the field of multilingual natural language processing, providing benchmarks for tasks such as speaker attribute classification and author profiling, as well as exploring the practical pathways of human-machine collaborative annotation in industrial scenarios.

提供机构：

多邻国

创建时间：

2026-05-26

原始信息汇总

WhoSaidIt 数据集概述

WhoSaidIt 是一个多语言文本数据集，用于基于文本的说话者属性分类任务。给定一段短文本（句子或对话），模型需预测表示说话者特征的二元标签，如性别、年龄组、父母身份、饮食偏好和性格特质。

数据集基本信息

属性	值
语言	英语、西班牙语、意大利语、韩语、中文
标签	9 个二元属性
每个标签的样本数	400
总样本数	3,600
格式	CSV（每个标签一个文件）

该数据集的每个标签是独立采样的，因此同一文本可能出现在多个文件中，但各文件不共享同一组文本。

标签定义

文件名	标签	通用定义
`male.csv`	male	说话者自我认同为男性。
`female.csv`	female	说话者自我认同为女性。
`child.csv`	child	说话者是儿童或青少年。
`adult.csv`	adult	说话者是成年人，或句子涉及成人主题（如饮用酒精或含咖啡因饮料）。
`elderly.csv`	elderly	说话者是老年人或被认定为祖父母。
`parent.csv`	parent	说话者陈述或暗示有孩子，但不表示是老年人或祖父母（避免与 elderly 标签重叠）。
`meat-eater.csv`	meat-eater	说话者食用肉类、禽类、海鲜或鸡蛋（乳制品除外）。
`vegetarian.csv`	vegetarian	句子明确陈述或暗示说话者是素食者。
`serious.csv`	serious	句子涉及严肃或负面主题，如死亡、疾病、犯罪或悲伤。

这些是高级标签定义。实际应用中，每个标签都有额外的具体要求、边界情况和精确率-召回率权衡，详见发布的提示和理由。某些标签存在设计上的依赖关系，例如 parent 和 elderly 与 adult 同时出现，而互斥对（如 male/female、meat-eater/vegetarian、parent/elderly）不应在同一实例中同时标记为 1。

数据格式

每个 CSV 文件包含三列：

列名	类型	描述
`language`	字符串	文本的语言（English、Spanish、Italian、Korean、Chinese）
`text`	字符串	需要分类的短输入文本
`true_label`	整数	二元标签：`1`（属性存在）或 `0`（属性不存在）

提示文件

prompts/ 目录包含论文中使用的 LLM 分类提示文件，每个标签一个 JSON 文件。每个文件表示用于基准测试的聊天风格提示，包括系统指令和（在适用情况下）手动编写的上下文演示轮次。最终查询使用 {{language}} 和 {{text}} 作为输入语言和文本的占位符。不同标签的提示格式可能略有不同，因为每个标签都有其自己的理由、边界情况、输出格式和精确率-召回率权衡。

数据统计

此发布版本（5 种公开语言）中每个标签的分布：

标签	正例 (1)	负例 (0)	总计
male	96	304	400
female	69	331	400
child	116	284	400
adult	199	201	400
elderly	93	307	400
parent	171	229	400
meat-eater	194	206	400
vegetarian	91	309	400
serious	200	200	400

许可协议

数据集文件和提示文件采用 CC BY-NC 4.0 许可协议。

引用

如需引用，请参考以下 BibTeX 格式：

@misc{gao2026whosaidithumanllmcollaborativeannotation, title={WhoSaidIt: Human-LLM Collaborative Annotation for Text-Based Multilingual Speaker-Attribute Classification}, author={Lingyu Gao and Will Monroe and David Smith and Meghan Jemison and Jackie Lee}, year={2026}, eprint={2605.26070}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2605.26070}, }

搜集汇总

数据集介绍

构建方式

WHOSAIDIT数据集的构建始于一个包含约195,000条短文本的多语言初始语料库，该语料库覆盖11种语言，但存在标注噪声、标签不平衡和指南概括性强等问题。为提升标注质量，研究团队提出了一种人类与大型语言模型（LLM）协作的重新标注框架。首先，利用LLM对每个语言随机采样的正负样本进行迭代分析，提炼出跨语言的标注理由，经专家审查后整合为统一的细化指南。随后，基于该指南生成LLM预测，与原始标注进行对比，通过过采样模型与人类标注不一致的高信息量样本，构建了分歧聚焦子集。最后，由经过训练的标注员依据细化指南对该子集进行重新标注，并由资深专家进行随机审计和针对性审查，以保守原则裁决分歧，确保标签的准确性和一致性。

使用方法

使用WHOSAIDIT数据集时，研究者可将其视为一个面向多语言说话者属性分类的评估基准。数据集已划分为开发集和测试集，其中测试集用于最终模型评估。推荐的用法是采用基于提示的分类方法，将细化后的标注理由嵌入提示词中，以引导模型进行推理。例如，对于肉食者标签，提示词可设计为分步决策流程：先检测文本中是否提及食物，再判断该食物是否含肉，最终输出标签。研究者可参考论文中提供的提示模板，但需注意避免直接复制数据集中的实例作为上下文示例。此外，数据集特别适合评估模型在主观性强、文化依赖性高的分类任务中的表现，如儿童和严肃等标签因涉及较多主观性，性能较低（如Claude 3.7 Sonnet的F1仅为43.9%和66.1%）。研究者还可进行消融实验，通过去除详细理由来观察模型行为的改变。

背景与挑战

背景概述

WHOSAIDIT数据集由Duolingo的研究团队于2025年创建，旨在解决文本驱动的多语言说话者属性分类问题。在文本仅有的环境下，说话者的社会特征——如性别、年龄、饮食偏好等——无法依赖声学信号，而必须从语言线索中推断，这些线索往往含蓄且因文化而异。该数据集覆盖11种语言和9种二元属性，通过人工与大型语言模型协作的再标注框架构建，显著提升标注一致性。其研究核心在于探索跨语言社会语言学范畴的主观标注稳定性，对多语言自然语言处理及工业级内容标签系统具有重要影响。

当前挑战

该数据集面临的核心挑战包括：首先，说话者属性在文本中信号微弱，同一语言线索在不同文化下可能引发截然不同的推断，导致跨语言标注歧义与决策边界模糊。其次，数据构建过程中，初始语料存在标签覆盖不全、类别极不平衡、标注指南过于泛化等问题，大规模人工重标注成本高昂且不切实际。此外，模型虽能辅助识别遗漏案例，却易依赖表层词汇线索，难以捕捉微妙的语用差异，且在推理时出现上下文幻觉，凸显了人类验证在精细任务中的不可或缺性。

常用场景

经典使用场景

WhoSaidIt数据集经典地应用于文本驱动的说话者属性分类任务，研究如何从单句短文本中推断说话者的性别、年龄组、亲职状态、饮食偏好及人格特质等多维二元属性。该数据集涵盖十一语种，每一条目仅依赖纯粹的语言线索而无需声学信号或用户元数据，为多语言环境下细粒度属性推断提供了高挑战性的基准测试平台。

解决学术问题

该数据集有效回应了跨语言主观标注不一致的学术困境，通过人类与大语言模型协作的再标注框架，系统性地消解了社会语言学标签定义模糊、文化语境差异引发的决策分歧。研究贡献不仅在于发布了高质量的多标签语料，更在于提出了可复现的标注质量提升方法论——利用模型识别隐性标注模式、专家整合跨语言规则，从而解决了弱监督环境下标签噪声大、覆盖不全、边界模糊等核心问题。

实际应用

在工业实践中，WhoSaidIt已直接赋能多邻国应用内容标签工作流，将原先需两周人工完成的说话者属性标注任务压缩至约三小时。产品级部署采用由精细化标注规则衍生的大语言模型分类提示，实现了从人工审核到半自动化标注的高效转变。这套以可读规则为中介的框架尤其适合多语言、标签极度不平衡的真实场景，有效降低了新语言或新属性上线时对高质量训练数据的依赖。

数据集最近研究