five

REALTALK|情感智能数据集|对话系统数据集

收藏
arXiv2025-02-19 更新2025-02-21 收录
情感智能
对话系统
下载链接:
https://github.com/danny911kr/REALTALK
下载链接
链接失效反馈
资源简介:
REALTALK是一个真实世界的长期对话数据集,由10对个体在21天内通过消息应用进行的真实对话组成。数据集包含大约16,000个词/对话,旨在通过直接比较真实世界对话和大型语言模型生成的对话,来研究情感智能属性和角色一致性等挑战。该数据集用于评估模型在长期对话中的情感智能和角色模拟能力,并为开发更加人性化的记忆感知AI提供基准任务。
提供机构:
南加州大学
创建时间:
2025-02-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
REALTALK数据集的构建始于招募10位参与者,他们被要求在21天内通过即时通讯应用程序与不同的伙伴进行至少50条消息的日常对话。这些对话被收集并进行了分析,以评估参与者的情感智能(EI)属性和角色一致性。为了评估LLM的记忆保留能力,还招募了另一组注释者对每个对话中的记忆探索问答对进行标注,并对每个对话会话中的演讲者事件进行标注。
特点
REALTALK数据集的特点在于它是一个真实的、长期的对话语料库,包含21天的真实即时通讯应用对话。它提供了对真实人类交互的直接基准,与现有的基于LLM生成的数据相比,REALTALK展示了真实对话的独特挑战。数据集的分析集中在EI属性和角色一致性上,揭示了与合成对话相比,真实对话中的情感表达多样性和角色稳定性的差异。此外,数据集还包含了超过16,000条消息的对话,每个对话都涵盖了大约21个会话,从而提供了丰富的交互模式。
使用方法
REALTALK数据集的使用方法包括两个基准任务:角色模拟和记忆探索。角色模拟任务评估模型模拟特定用户对话风格的能力,而记忆探索任务测试模型在回答需要长期记忆的针对性问题时,是否能够保留和应用长期上下文。用户可以通过提供对话历史作为输入,来训练和测试模型在模拟特定用户角色和记忆探索任务上的性能。
背景与挑战
背景概述
REALTALK数据集由Dong-Ho Lee, Adyasha Maharana, Jay Pujara, Xiang Ren和Francesco Barbieri等人于2025年创建,旨在为长期、开放域对话能力的研究提供真实世界的数据支持。该数据集包含21天内真实的即时通讯应用对话,为长期对话能力的研究提供了直接的人类互动基准。该数据集的创建填补了现有研究依赖合成数据,缺乏真实世界对话模式信息的空白,对聊天机器人领域的研究具有重要影响。
当前挑战
REALTALK数据集相关的挑战包括:1)解决领域问题的挑战:REALTALK数据集旨在解决现有研究对真实世界对话模式了解不足的问题。2)构建过程中所遇到的挑战:收集长时间、真实世界的、涉及同一参与者的人类对话数据集,确保对话的连贯性和一致性是一个技术难题。
常用场景
经典使用场景
REALTALK数据集被设计用来支持长期、开放域对话的研究,特别是为了训练和评估聊天机器人模型,使其能够回忆过去的交互并展示情感智能。该数据集包含真实的人类对话,为研究者提供了与真实人类交互的直接基准,从而能够更好地理解现实世界中的对话模式。通过分析数据集中的情感智能属性和角色一致性,研究者可以揭示真实对话的独特挑战,并利用这些见解来改进聊天机器人模型的设计。
解决学术问题
REALTALK数据集解决了现有研究过多依赖于合成数据的问题,这些数据无法完全捕捉真实世界对话的复杂性和微妙之处。通过提供真实的、长期的对话数据,REALTALK帮助研究者评估现有模型在情感智能和角色一致性方面的表现,并揭示了LLM模型在模拟真实人类对话时面临的挑战,例如情感表达的多样性、角色稳定性的变化以及长期记忆的应用。这些发现为未来聊天机器人模型的研究提供了重要的指导,并推动了更加人性化的交互模型的发展。
衍生相关工作
REALTALK数据集的发布促进了相关领域的研究,包括长期对话模型、情感智能和角色一致性。基于REALTALK数据集的研究成果已经被用于开发新的评估基准,例如角色模拟和记忆探测,这些基准有助于评估模型在长期对话中的表现。此外,REALTALK数据集还启发了对真实世界对话中情感智能和角色动态的深入研究,以及如何将这些理解应用于聊天机器人模型的开发。这些研究有助于推动聊天机器人技术的进步,使其更加符合人类用户的交互需求。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国车牌识别数据集(7类,33万张)

这是一个高质量、平衡的中国车牌识别数据集,包含了33万张各类中国车牌的图片。数据集经过精心设计,确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。

魔搭社区 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录