five

REALTALK|聊天机器人数据集|自然语言处理数据集

收藏
github2025-02-20 更新2025-02-22 收录
聊天机器人
自然语言处理
下载链接:
https://github.com/danny911kr/REALTALK
下载链接
链接失效反馈
资源简介:
REALTALK是一个为期21天的真实世界对话数据集,提供了真实的信息交换对话,用于评估聊天机器人在长期开放域对话中的能力,包括回忆过去交互和展示情感智能。
创建时间:
2025-02-16
原始信息汇总

REALTALK 数据集概述

数据集简介

REALTALK 是一个为期21天的真实世界对话数据集,旨在为长期、开放领域的对话提供直接的基准,以对比真实人类交互。该数据集来源于真实的即时通讯应用对话,用于研究聊天机器人在回忆过去交互和展示情感智能方面的能力。

数据集特点

  • 真实对话记录:包含21天的真实即时通讯对话记录。
  • 情感智能分析:关注情感智能属性和角色一致性,以理解真实世界对话带来的挑战。
  • 与合成对话对比:通过对比合成对话,突显真实对话中的多样情感表达和角色稳定性变化。

数据格式

  • 处理后的数据data/*.json,以JSON格式存储处理后的REALTALK数据集。
  • 原始数据data/raw,包含REALTALK数据集的原始数据,以Excel格式存储。

相关任务

  • 角色模拟:模型根据之前的对话上下文,代表特定用户继续对话。
  • 记忆探测:模型回答需要长期记忆的针对性问题。

数据集论文

AI搜集汇总
数据集介绍
main_image_url
构建方式
REALTALK数据集的构建,旨在填补长时开放域对话研究在真实世界对话数据上的空白。该数据集由连续21天的真实消息应用对话构成,确保了数据的真实性和连贯性。数据集的构建首先从真实用户对话中收集原始数据,进而经过处理转化为json格式的加工数据,以便于研究者使用。
特点
REALTALK数据集的特点在于其真实世界的对话样本,包含丰富的情感表达和个性化角色的稳定性变化。与合成对话相比,该数据集展现了更为多样的情感表达和角色稳定性,这对于理解和模拟真实人类对话具有重要意义。此外,该数据集针对情感智能属性和角色一致性进行了专门分析,为评估对话系统的真实表现提供了基准。
使用方法
使用REALTALK数据集,研究者可以开展两项基准任务:一是角色模拟任务,模型需根据之前的对话上下文代表特定用户继续对话;二是记忆探测任务,模型需回答需要长期记忆的问题。数据集以json格式存储,便于加载和处理,同时原始数据以xlsx格式保存,保留了最原始的对话信息,有助于进一步的探索和分析。
背景与挑战
背景概述
REALTALK数据集,作为一项为期21天的真实世界对话语料库,旨在为长期、开放领域的对话研究提供直接的基准,以衡量聊天机器人在回忆过往交互和展现情感智能方面的能力。该数据集由研究人员于近期创建,并在学术圈引起了广泛关注。其核心研究问题聚焦于真实对话模式中的情感智能属性和角色一致性,对于深入理解人类对话的独特挑战具有重要意义。REALTALK数据集不仅填补了现有研究依赖合成数据或大型语言模型生成数据的空白,而且对情感智能和个性化对话系统的开发产生了深远影响。
当前挑战
REALTALK数据集的构建过程中,研究人员面临着诸多挑战。首先,真实对话中的情感表达多样性和角色稳定性变异为数据集的构建带来了困难,这些是合成对话往往无法捕捉到的。其次,数据集在构建两项基准任务——角色模拟和长期记忆探测时,揭示了现有模型在模拟特定用户对话历史和利用长期对话上下文方面的重大挑战。这些挑战对于促进对话系统的真实性和有效性至关重要,需要研究人员和开发者进行深入探索和创新。
常用场景
经典使用场景
针对长期、开放域对话系统的研究,REALTALK数据集提供了一个为期21天的真实世界对话语料库。该数据集的经典使用场景在于,研究者能够利用这些真实的对话数据,训练和评估对话模型在情感智能和个性化模拟方面的性能,从而推动聊天机器人在情感交互与个性化服务上的发展。
解决学术问题
REALTALK数据集解决了现有研究在真实对话模式理解上的不足,其通过提供真实的人类对话记录,揭示了与合成对话相比,真实对话在情感表达多样性和角色稳定性方面的独特挑战。这有助于学术界更好地理解长期对话中的情感智能特性和角色一致性,进而促进相关技术的进步。
衍生相关工作
REALTALK数据集的发布促进了相关领域的研究,如引入了两个新的基准任务:角色模拟和记忆探测。这些任务推动了对话系统在模拟特定用户和利用长期记忆方面的新方法和技术的发展,衍生出了一系列探讨对话模型性能和改进策略的经典工作。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

RadDet

RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。

github 收录

VOC2007

http://host.robots.ox.ac.uk/pascal/VOC/

阿里云天池 收录

LOL (LOw-Light dataset)

LOL 数据集由 500 个低光和正常光图像对组成,分为 485 个训练对和 15 个测试对。低光图像包含照片捕获过程中产生的噪声。大多数图像是室内场景。所有图像的分辨率均为 400×600。

OpenDataLab 收录