TwinVoice

Name: TwinVoice
Creator: 清华大学, 罗格斯大学, 复旦大学
Published: 2025-10-30 19:19:24
License: 暂无描述

arXiv2025-10-30 更新2025-10-31 收录

下载链接：

https://twinvoice.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

TwinVoice是一个用于评估大型语言模型（LLM）在模拟个人身份方面的能力的全面基准数据集。它包含三个维度：社交身份（公共社交互动）、人际身份（私人对话）和叙事身份（基于角色的表达）。该数据集进一步将LLM性能评估分解为六个基本能力，包括观点一致性、记忆回忆、逻辑推理、词汇忠实度、身份语调和句法风格。实验结果表明，尽管先进的模型在身份模拟方面取得了适度的准确度，但它们仍然缺乏句法风格和记忆回忆等能力。因此，LLMs的平均性能仍然远低于人类。该数据集旨在解决当前评估LLM身份模拟能力的局限性，并提供一个系统性的评估框架。

TwinVoice is a comprehensive benchmark dataset for evaluating the ability of Large Language Models (LLMs) to simulate personal identities. It encompasses three dimensions: social identity (public social interactions), interpersonal identity (private conversations), and narrative identity (role-based expression). This dataset further breaks down LLM performance evaluation into six core capabilities, including opinion consistency, memory recall, logical reasoning, lexical fidelity, identity tone, and syntactic style. Experimental results show that although state-of-the-art models have achieved moderate accuracy in identity simulation, they still lack capabilities such as syntactic style and memory recall. Consequently, the average performance of LLMs remains far below that of humans. This dataset aims to address the limitations of current evaluations of LLMs' identity simulation capabilities and provide a systematic assessment framework.

提供机构：

清华大学, 罗格斯大学, 复旦大学

创建时间：

2025-10-29

原始信息汇总

TwinVoice 数据集概述

数据集名称

TwinVoice: A Multi-dimensional Benchmark Towards Digital Twins via LLM Persona Simulation

作者信息

Bangde Du¹* (清华大学)
Minghao Guo²* (罗格斯大学)
Songming He³ (复旦大学)
Ziyi Ye³† (复旦大学)
Xi Zhu² (罗格斯大学)
Weihang Su¹ (清华大学)
Shuqi Zhu¹ (清华大学)
Yujia Zhou¹ (清华大学)
Yongfeng Zhang² (罗格斯大学)
Qingyao Ai¹† (清华大学)
Yiqun Liu¹ (清华大学)

*同等贡献作者 †通讯作者

项目链接

https://twinvoice.github.io

研究背景

大型语言模型(LLMs)展现出类似人类的涌现能力，被越来越多地设想为模拟个体沟通风格、行为倾向和人格特质的基础。当前基于LLM的人物模拟评估存在局限性：大多依赖合成对话、缺乏系统框架、缺乏能力需求分析。

基准介绍

TwinVoice是一个全面的基准测试，用于评估不同现实场景下的人物模拟能力。该基准涵盖三个维度：

社会角色：公共社交互动
人际角色：私人对话
叙事角色：基于角色的表达

评估能力维度

将LLM性能评估分解为六个基本能力：

观点一致性
记忆回忆
逻辑推理
词汇保真度
人物语调
句法风格

实验发现

实验结果表明，虽然先进模型达到了中等准确率，但在维持一致的人物模拟方面仍然不足，特别是在句法风格和记忆回忆能力方面存在明显欠缺。

任务定义

评估框架：

LLMs被提示使用特定人物的历史记录并执行刺激任务
三种评估协议：
- 判别式：模型从A-D中选择，其中一个是真实人物行为
- 生成式排序：模型生成内容，LLM作为评判者选择最佳候选
- 生成式评分：模型生成内容，评判者在观点、逻辑和风格上评分相似性

搜集汇总

数据集介绍

构建方式

在数字孪生技术蓬勃发展的背景下，TwinVoice数据集通过多维度的数据采集与精细处理构建而成。该数据集整合了真实社交媒体互动、多会话对话记录及虚构叙事材料，分别对应社交人格、人际人格与叙事人格三大维度。社交人格维度基于PChatbot中文微博语料库，通过人物清晰度与选择区分度框架筛选高质量样本；人际人格维度利用Pushshift Telegram语囊，采用多阶段过滤机制提取多语言对话数据；叙事人格维度则从古登堡计划选取小说文本，提取角色对话片段并构建个性化档案。整个构建过程严格遵循语义去重与质量评估标准，确保数据集的真实性与多样性。

特点

作为面向数字孪生仿真的评估基准，TwinVoice展现出独特的系统性特征。其核心优势在于将人格仿真能力解构为六大基础维度：思维一致性涵盖观点一致性、记忆回溯与逻辑推理，语言表达则包含词汇保真度、人格语调和句法风格。数据集涵盖4553个独立人格实例，跨越社交、人际与叙事三大场景，既包含真实世界的社会互动痕迹，又融合虚构情境的叙事表达。特别值得关注的是其多范式评估设计，同步支持判别式选择与生成式仿真两种模式，并通过LLM-as-a-Judge机制实现生成内容的多维度量化评估，为数字孪生研究提供了前所未有的细粒度分析框架。

使用方法

在人工智能人格仿真研究领域，TwinVoice提供了标准化的评估流程与灵活的应用接口。研究者在判别式评估中，可通过多选任务测试模型在给定人格历史与刺激条件下选择最符合人格特征回应的能力；生成式评估则要求模型基于人格背景生成自由文本，再经由LLM裁判进行排名或打分。评估协议严格遵循1-5分量表，从观点一致性、逻辑事实保真度和风格相似性三个支柱维度进行综合评判。数据集支持端到端的实验复现，研究者可通过提供的提示模板、数据路径和解码设置，系统评估不同模型在人格仿真任务中的表现差异，为个性化人工智能的发展提供可靠基准。

背景与挑战

背景概述

随着大语言模型展现出类人能力，构建个体数字孪生成为人工智能领域的前沿课题。2025年，清华大学、罗格斯大学与复旦大学联合团队发布TwinVoice基准，旨在系统评估大语言模型在人格模拟任务中的表现。该数据集涵盖社交身份、人际对话与叙事角色三维度，通过分解六大核心能力建立细粒度评估体系，为个性化智能代理与数字孪生研究提供了重要基础设施。

当前挑战

在领域层面，数字孪生需突破长期记忆保持与人格一致性建模的瓶颈，当前模型在语法风格复现与情境推理方面仍显著落后人类水平。构建过程中面临真实数据稀疏性与多维度标注复杂性双重挑战，需通过语义去噪与对抗样本设计平衡生态效度与评估信度，同时解决多语言语境下的文化适应性难题。

常用场景

经典使用场景

在数字孪生技术迅猛发展的背景下，TwinVoice数据集作为首个系统化评估大语言模型人物模拟能力的基准，主要应用于多维度人物身份复现研究。该数据集通过社交人格、人际人格和叙事人格三大维度，构建了从公开社交互动到私密对话再到角色叙事的完整评估体系，为研究者提供了检验模型在真实场景中保持人物一致性的标准化测试平台。

解决学术问题

该数据集有效解决了人物模拟领域长期存在的评估碎片化问题，突破了传统基准对合成对话的依赖，填补了系统性能力分解框架的空白。通过将人物保真度解构为思维一致性与语言表达两大维度，并细化为观点一致性、记忆回溯、逻辑推理等六项核心能力，为量化分析模型在长期一致性、风格控制等关键指标上的表现提供了科学依据，推动了个性化人工智能向可测量、可解释的方向发展。

衍生相关工作

基于TwinVoice的评估范式，研究社区衍生出多项创新工作。在模型架构层面催生了专注于长程记忆增强的对话系统，在训练策略上推动了基于能力分解的针对性优化方法。其细粒度评估指标更启发了多模态人物建模、跨语言身份迁移等研究方向，为构建具备文化适应性的数字分身提供了理论支撑和技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集