ThoughtTrace

Name: ThoughtTrace
Creator: 约翰斯·霍普金斯大学; 麻省理工学院; 谷歌研究院
Published: 2026-05-20 00:42:06
License: 暂无描述

arXiv2026-05-20 更新2026-05-21 收录

下载链接：

https://thoughttrace-project.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

ThoughtTrace是由约翰斯·霍普金斯大学、麻省理工学院和谷歌研究院联合创建的首个大规模用户思维标注数据集，旨在揭示人机对话中用户未表达的认知动态。该数据集包含1058名用户通过20种语言模型进行的2155次多轮对话，共计17058个交互轮次和10174条思维标注，数据来源于真实开放任务场景下的用户自报告。其构建过程通过引导用户在自然对话中同步标注发送消息的动机和对助手回复的反应，并收集任务后描述与人口统计信息。该数据集主要应用于用户建模、模型对齐和评估领域，致力于解决传统对话数据无法捕捉用户潜在意图与认知过程的问题，为构建更理解用户内在目标与偏好的智能助手提供基础。

提供机构：

约翰斯·霍普金斯大学; 麻省理工学院; 谷歌研究院

创建时间：

2026-05-20

原始信息汇总

ThoughtTrace 数据集概述

基本信息

数据集名称: ThoughtTrace
发布时间: 2026年
发布机构: 约翰霍普金斯大学、麻省理工学院、Google Research
论文地址: https://thoughttrace-project.github.io/
代码与数据: 可通过项目页面获取（Code 和 Data 链接）

核心特征

ThoughtTrace 是目前首个大规模数据集，将真实世界的多轮人机对话与用户自我报告的“想法”（thoughts）配对，包括：

用户发送提示（prompt）的原因（reasons）
用户对助手回复的反应（reactions）

数据集规模

指标	数值
用户数	1,058
对话数	2,155
对话轮数	17,058
想法数	10,174
使用的LLM数	20

对话特性

对话行为特征

捕获了具有代表性的用户光谱（涵盖年龄、性别、教育、职业、AI使用频率和主要目的等多样的用户群体）
对话具有长期跨度和主题多样性：
- 中位轮次：8轮（对比 WildChat 和 LMSYS-Chat-1M 的 2 轮）
- 覆盖 7 个广泛主题类别 和 36 个细粒度子主题，无单一类别占主导
用户交互以任务扩展为主（占 57.0%），且随对话进行扩展模式增强

想法特性

想法的独特价值

与消息内容不同：想法捕获了大量对话文本中未直接表述的潜在信息，在嵌入层面和语义覆盖评分上均有显著差异
难以被大模型推断：三个前沿模型（GPT、Gemini、Claude）从上下文中推断用户想法的平均语义相似度仅为：原因（reasons）2.93 分、反应（reactions）2.54 分（满分5分）
内容多样性：
- 原因（reasons）涵盖 7 个类别，以任务动机与目标（36.9%）最为常见
- 反应（reactions）涵盖 5 个类别，显性肯定占据主导，不满情绪主要源于内容相关性、呈现风格和范围适配度
动态依赖对话阶段：
- 任务动机在早期轮次占主导，任务延续在后期轮次占主导
- 显性肯定随对话收敛而稳步增加

实用价值

案例一：用户行为预测

使用想法注释后，下一用户消息预测的语义相似度从 21.6 提升至 30.6（相对增益 41.7%）
在 GPT、Gemini、Opus 三个模型上均表现出一致提升

方法	GPT	Gemini	Opus	平均
仅历史消息	21.4	22.1	21.3	21.6
想法增强	27.4	28.9	35.5	30.6

案例二：模型对齐

基于想法的重写方法在 Arena-Hard 基准上：
- 对比基于消息的重写方法提升 +4.5%
- 超越基线模型 +25.6%
- 超越 WildChat 基线 +6.6%

方法	胜率(%)	风格控制胜率(%)
Qwen3.5-4B	24.6	22.5
WildChat	41.8	41.5
ThoughtTrace (消息)	44.0	43.6
ThoughtTrace (想法)	47.9	48.1

未来研究方向

用户建模：系统研究人机交互中动态的心理过程，包括用户的真实想法、对话上下文如何塑造这些想法、想法如何影响后续用户话语
模型训练：利用用户想法作为新的监督信号，帮助模型更好地捕获用户的潜在目标、期望和反应
评估：建立基于想法预测的基准测试，发展面向潜在意图和主观体验的评估方法

引用格式

@article{jin2026thoughttrace, title = {ThoughtTrace: Understanding User Thoughts in Real-World LLM Interactions}, author = {Jin, Chuanyang and Li, Binze and Xie, Haopeng and Fang, Cathy Mengying and Li, Tianjian and Longpre, Shayne and Gu, Hongxiang and Chen, Maximillian and Shu, Tianmin}, year = {2026}, url = {https://thoughttrace-project.github.io/} }

搜集汇总

数据集介绍

构建方式

ThoughtTrace的构建源于对现有对话数据集仅捕获用户表面言语而忽略其潜在思考这一局限性的深刻洞察。研究团队通过Prolific平台招募了1058名参与者，引导他们在与20种不同语言模型进行开放式多轮对话的同时，实时标注其内在思考。具体流程包括：参与者首先完成交互教程与测验，随后在10分钟内围绕自定任务与AI自然对话，并分别为发送的每条消息附上“原因”、为AI的每次回复附上“反应”。每项任务结束后，参与者还需描述任务完成情况与对AI的期望，最后填写人口统计学问卷。整个过程共采集到2155段对话、17058轮交互及10174条思考标注，形成了首个将真实人机对话与用户自报告思考相配对的大规模数据集。

特点

ThoughtTrace的核心特点在于其开创性地引入了“用户思考”这一全新数据模态，揭示了对话表面之下丰富的认知动态。该数据集展现出多维度的独特属性：首先，思考在语义上显著区别于对话消息本身，通过嵌入分析与LLM语义覆盖度评分均证实其捕捉了大量未被言语化的潜在意图。其次，这些思考即使是前沿语言模型也难以从上下文准确推断，平均语义相似度评分仅为2.93（原因）与2.54（反应），凸显了显式标注的珍贵价值。再者，思考内容极为多样，涵盖七类原因（如任务动机、连续任务）与五类反应（如明确肯定、内容相关性不满），其分布随对话阶段动态演化——早期以任务动机为主，后期连续任务驱动增强，满意度亦随交互深入稳步提升。

使用方法

ThoughtTrace为下游建模提供了两种关键应用路径。其一，在推理阶段，将用户思考作为额外上下文可显著提升对用户下一消息的预测能力，平均语义相似度从21.6提升至30.6，相对增益达41.7%，展示了思考在用户行为预测中的强大信号价值。其二，在模型对齐方面，基于思考引导的回复改写相比基于消息的改写获得了更优的对齐效果：在Arena-Hard基准上，思考引导方法相较于基线模型提升25.6%，相较于相同对话上的消息引导方法亦高出4.5%。这证实了思考编码了比用户显式表达更丰富的满意度与修改信号，为训练更理解用户潜在需求与偏好的个性化助手奠定了坚实基础。

背景与挑战

背景概述

在对话式人工智能已触及数十亿用户的当下，现有数据集仅捕捉用户外显的言语表达，却对其内在的思维过程一无所知。由约翰霍普金斯大学、麻省理工学院及谷歌研究团队于2025年联合创建的ThoughtTrace数据集，开创性地将真实世界多轮人机对话与用户自我报告的潜在思想——包括发送提示的动机及对助手回应的反应——进行了配对。该数据集汇聚了1058名用户、2155段对话、17058轮交互及10174条思维标注，覆盖20种语言模型，揭示了用户思想作为理解人机交互认知动态的全新数据模态，为人机交互研究奠定了重要基础。

当前挑战

ThoughtTrace所应对的核心挑战在于，传统人机交互数据集仅记录用户说了什么，却无法捕捉其“在想什么”，而用户的思想往往蕴含着驱动对话进程的真实动机、约束条件与满意度评价。这一信息鸿沟使得现有模型难以准确理解用户的潜在目标、偏好与需求。在数据集构建过程中，研究者面临着如何在自然对话情境中引导用户实时、真实地注释其内心想法，同时避免注释行为本身对交互产生干扰的方法学挑战。此外，确保来自不同背景的参与者能够一致地理解并完成“原因”（Reason）与“反应”（Reaction）两类思维的标注，并保证数据质量与多样性，同样是构建过程中的重大考验。

常用场景

经典使用场景

在人机对话研究领域，长期以来研究人员只能依赖用户显式的语言表达来理解交互过程，这如同一座冰山只露出了水面的一角。ThoughtTrace作为首个大规模采集用户隐式思维的数据集，为研究者提供了窥探用户内心认知活动的窗口。该数据集最经典的用途是用于探究用户与AI助手交互过程中产生的潜在思维轨迹，包括用户发送消息的根本动机、对助手回复的真实反应，以及这些思维如何驱动后续对话的演进。通过配对多轮真实对话与用户自述的思维注释，研究者能够系统分析用户意图的演变规律，为理解人机交流中的认知动态提供了前所未有的数据基础。

实际应用

在实际应用层面，ThoughtTrace蕴含的价值尤为显著，它为构建更智能、更具适应性的对话助手提供了直接的技术路径。首先，该数据集的思维注释可以作为推理时的上下文信息，极大提升用户行为预测的准确性，使AI系统能够提前预判用户的后续需求，实现主动式、个性化服务。其次，通过利用用户的不满反应思维指导模型重写回复，ThoughtTrace为语言模型的对齐训练提供了细粒度且真实的监督信号：基于思维指导的重写在Arena-Hard基准上相较基础模型提升了25.6%的胜率，优于传统的基于消息的重写方法。这意味着在实际产品中，ThoughtTrace能够帮助AI助手更好地理解用户的隐性不满，从根源上优化回复质量，提升用户体验的满意度。

衍生相关工作

ThoughtTrace的诞生迅速催生了一系列具有影响力的衍生研究工作，构成了一个生机勃勃的研究生态。在用户建模方向，该数据集促使研究者开发能够联合预测用户思维与对话行为的模型，从而构建更逼真的用户模拟器，解决了传统模拟器存在的偏差和不忠实问题。在模型对齐领域，研究者开始探索将思维信号与强化学习、在线对齐训练等框架相结合，利用真实用户反应而非行为代理来优化模型偏好。此外，在思维推理方面，该数据集催生了新的评价基准，推动了从表面话语质量评估向潜在意图和主观体验评估的转变。这些衍生工作共同推动了人机交互研究从观察对话向理解内心认知的深层次迈进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集