five

REALTALK|聊天机器人数据集|自然语言处理数据集

收藏
github2025-02-20 更新2025-02-22 收录
聊天机器人
自然语言处理
下载链接:
https://github.com/danny911kr/REALTALK
下载链接
链接失效反馈
资源简介:
REALTALK是一个为期21天的真实世界对话数据集,提供了真实的信息交换对话,用于评估聊天机器人在长期开放域对话中的能力,包括回忆过去交互和展示情感智能。
创建时间:
2025-02-16
原始信息汇总

REALTALK 数据集概述

数据集简介

REALTALK 是一个为期21天的真实世界对话数据集,旨在为长期、开放领域的对话提供直接的基准,以对比真实人类交互。该数据集来源于真实的即时通讯应用对话,用于研究聊天机器人在回忆过去交互和展示情感智能方面的能力。

数据集特点

  • 真实对话记录:包含21天的真实即时通讯对话记录。
  • 情感智能分析:关注情感智能属性和角色一致性,以理解真实世界对话带来的挑战。
  • 与合成对话对比:通过对比合成对话,突显真实对话中的多样情感表达和角色稳定性变化。

数据格式

  • 处理后的数据data/*.json,以JSON格式存储处理后的REALTALK数据集。
  • 原始数据data/raw,包含REALTALK数据集的原始数据,以Excel格式存储。

相关任务

  • 角色模拟:模型根据之前的对话上下文,代表特定用户继续对话。
  • 记忆探测:模型回答需要长期记忆的针对性问题。

数据集论文

AI搜集汇总
数据集介绍
main_image_url
构建方式
REALTALK数据集的构建,旨在填补长时开放域对话研究在真实世界对话数据上的空白。该数据集由连续21天的真实消息应用对话构成,确保了数据的真实性和连贯性。数据集的构建首先从真实用户对话中收集原始数据,进而经过处理转化为json格式的加工数据,以便于研究者使用。
特点
REALTALK数据集的特点在于其真实世界的对话样本,包含丰富的情感表达和个性化角色的稳定性变化。与合成对话相比,该数据集展现了更为多样的情感表达和角色稳定性,这对于理解和模拟真实人类对话具有重要意义。此外,该数据集针对情感智能属性和角色一致性进行了专门分析,为评估对话系统的真实表现提供了基准。
使用方法
使用REALTALK数据集,研究者可以开展两项基准任务:一是角色模拟任务,模型需根据之前的对话上下文代表特定用户继续对话;二是记忆探测任务,模型需回答需要长期记忆的问题。数据集以json格式存储,便于加载和处理,同时原始数据以xlsx格式保存,保留了最原始的对话信息,有助于进一步的探索和分析。
背景与挑战
背景概述
REALTALK数据集,作为一项为期21天的真实世界对话语料库,旨在为长期、开放领域的对话研究提供直接的基准,以衡量聊天机器人在回忆过往交互和展现情感智能方面的能力。该数据集由研究人员于近期创建,并在学术圈引起了广泛关注。其核心研究问题聚焦于真实对话模式中的情感智能属性和角色一致性,对于深入理解人类对话的独特挑战具有重要意义。REALTALK数据集不仅填补了现有研究依赖合成数据或大型语言模型生成数据的空白,而且对情感智能和个性化对话系统的开发产生了深远影响。
当前挑战
REALTALK数据集的构建过程中,研究人员面临着诸多挑战。首先,真实对话中的情感表达多样性和角色稳定性变异为数据集的构建带来了困难,这些是合成对话往往无法捕捉到的。其次,数据集在构建两项基准任务——角色模拟和长期记忆探测时,揭示了现有模型在模拟特定用户对话历史和利用长期对话上下文方面的重大挑战。这些挑战对于促进对话系统的真实性和有效性至关重要,需要研究人员和开发者进行深入探索和创新。
常用场景
经典使用场景
针对长期、开放域对话系统的研究,REALTALK数据集提供了一个为期21天的真实世界对话语料库。该数据集的经典使用场景在于,研究者能够利用这些真实的对话数据,训练和评估对话模型在情感智能和个性化模拟方面的性能,从而推动聊天机器人在情感交互与个性化服务上的发展。
解决学术问题
REALTALK数据集解决了现有研究在真实对话模式理解上的不足,其通过提供真实的人类对话记录,揭示了与合成对话相比,真实对话在情感表达多样性和角色稳定性方面的独特挑战。这有助于学术界更好地理解长期对话中的情感智能特性和角色一致性,进而促进相关技术的进步。
衍生相关工作
REALTALK数据集的发布促进了相关领域的研究,如引入了两个新的基准任务:角色模拟和记忆探测。这些任务推动了对话系统在模拟特定用户和利用长期记忆方面的新方法和技术的发展,衍生出了一系列探讨对话模型性能和改进策略的经典工作。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

Amazon Reviews 2023

该数据集包含用户评论,如评分、评论文本、有用投票等,以及商品元数据,如产品描述、定价、图片等。数据集比以前的版本大245.2%,包含571.54M条评论,并具有更丰富的描述性商品特征和细粒度的时间戳。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录