REALTALK

Name: REALTALK
Creator: 南加州大学
Published: 2025-02-19 04:29:01
License: 暂无描述

arXiv2025-02-19 更新2025-02-21 收录

下载链接：

https://github.com/danny911kr/REALTALK

下载链接

链接失效反馈

官方服务：

资源简介：

REALTALK是一个真实世界的长期对话数据集，由10对个体在21天内通过消息应用进行的真实对话组成。数据集包含大约16,000个词/对话，旨在通过直接比较真实世界对话和大型语言模型生成的对话，来研究情感智能属性和角色一致性等挑战。该数据集用于评估模型在长期对话中的情感智能和角色模拟能力，并为开发更加人性化的记忆感知AI提供基准任务。

REALTALK is a real-world long-term conversation dataset consisting of authentic dialogues between 10 pairs of individuals conducted over 21 days via messaging applications. The dataset contains approximately 16,000 words across all conversations. It aims to investigate challenges including emotional intelligence attributes and role consistency through direct comparisons between real-world dialogues and those generated by large language models (LLMs). This dataset is utilized to evaluate models' emotional intelligence and role simulation capabilities in long-term conversations, and provides benchmark tasks for developing more human-like memory-aware AI.

提供机构：

南加州大学

创建时间：

2025-02-19

搜集汇总

数据集介绍

构建方式

REALTALK数据集的构建始于招募10位参与者，他们被要求在21天内通过即时通讯应用程序与不同的伙伴进行至少50条消息的日常对话。这些对话被收集并进行了分析，以评估参与者的情感智能(EI)属性和角色一致性。为了评估LLM的记忆保留能力，还招募了另一组注释者对每个对话中的记忆探索问答对进行标注，并对每个对话会话中的演讲者事件进行标注。

特点

REALTALK数据集的特点在于它是一个真实的、长期的对话语料库，包含21天的真实即时通讯应用对话。它提供了对真实人类交互的直接基准，与现有的基于LLM生成的数据相比，REALTALK展示了真实对话的独特挑战。数据集的分析集中在EI属性和角色一致性上，揭示了与合成对话相比，真实对话中的情感表达多样性和角色稳定性的差异。此外，数据集还包含了超过16,000条消息的对话，每个对话都涵盖了大约21个会话，从而提供了丰富的交互模式。

使用方法

REALTALK数据集的使用方法包括两个基准任务：角色模拟和记忆探索。角色模拟任务评估模型模拟特定用户对话风格的能力，而记忆探索任务测试模型在回答需要长期记忆的针对性问题时，是否能够保留和应用长期上下文。用户可以通过提供对话历史作为输入，来训练和测试模型在模拟特定用户角色和记忆探索任务上的性能。

背景与挑战

背景概述

REALTALK数据集由Dong-Ho Lee, Adyasha Maharana, Jay Pujara, Xiang Ren和Francesco Barbieri等人于2025年创建，旨在为长期、开放域对话能力的研究提供真实世界的数据支持。该数据集包含21天内真实的即时通讯应用对话，为长期对话能力的研究提供了直接的人类互动基准。该数据集的创建填补了现有研究依赖合成数据，缺乏真实世界对话模式信息的空白，对聊天机器人领域的研究具有重要影响。

当前挑战

REALTALK数据集相关的挑战包括：1)解决领域问题的挑战：REALTALK数据集旨在解决现有研究对真实世界对话模式了解不足的问题。2)构建过程中所遇到的挑战：收集长时间、真实世界的、涉及同一参与者的人类对话数据集，确保对话的连贯性和一致性是一个技术难题。

常用场景

经典使用场景

REALTALK数据集被设计用来支持长期、开放域对话的研究，特别是为了训练和评估聊天机器人模型，使其能够回忆过去的交互并展示情感智能。该数据集包含真实的人类对话，为研究者提供了与真实人类交互的直接基准，从而能够更好地理解现实世界中的对话模式。通过分析数据集中的情感智能属性和角色一致性，研究者可以揭示真实对话的独特挑战，并利用这些见解来改进聊天机器人模型的设计。

解决学术问题

REALTALK数据集解决了现有研究过多依赖于合成数据的问题，这些数据无法完全捕捉真实世界对话的复杂性和微妙之处。通过提供真实的、长期的对话数据，REALTALK帮助研究者评估现有模型在情感智能和角色一致性方面的表现，并揭示了LLM模型在模拟真实人类对话时面临的挑战，例如情感表达的多样性、角色稳定性的变化以及长期记忆的应用。这些发现为未来聊天机器人模型的研究提供了重要的指导，并推动了更加人性化的交互模型的发展。

衍生相关工作

REALTALK数据集的发布促进了相关领域的研究，包括长期对话模型、情感智能和角色一致性。基于REALTALK数据集的研究成果已经被用于开发新的评估基准，例如角色模拟和记忆探测，这些基准有助于评估模型在长期对话中的表现。此外，REALTALK数据集还启发了对真实世界对话中情感智能和角色动态的深入研究，以及如何将这些理解应用于聊天机器人模型的开发。这些研究有助于推动聊天机器人技术的进步，使其更加符合人类用户的交互需求。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集