REALTALK|聊天机器人数据集|自然语言处理数据集
收藏REALTALK 数据集概述
数据集简介
REALTALK 是一个为期21天的真实世界对话数据集,旨在为长期、开放领域的对话提供直接的基准,以对比真实人类交互。该数据集来源于真实的即时通讯应用对话,用于研究聊天机器人在回忆过去交互和展示情感智能方面的能力。
数据集特点
- 真实对话记录:包含21天的真实即时通讯对话记录。
- 情感智能分析:关注情感智能属性和角色一致性,以理解真实世界对话带来的挑战。
- 与合成对话对比:通过对比合成对话,突显真实对话中的多样情感表达和角色稳定性变化。
数据格式
- 处理后的数据:
data/*.json
,以JSON格式存储处理后的REALTALK数据集。 - 原始数据:
data/raw
,包含REALTALK数据集的原始数据,以Excel格式存储。
相关任务
- 角色模拟:模型根据之前的对话上下文,代表特定用户继续对话。
- 记忆探测:模型回答需要长期记忆的针对性问题。

MeSH
MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。
www.nlm.nih.gov 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
RadDet
RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。
github 收录
VOC2007
http://host.robots.ox.ac.uk/pascal/VOC/
阿里云天池 收录
LOL (LOw-Light dataset)
LOL 数据集由 500 个低光和正常光图像对组成,分为 485 个训练对和 15 个测试对。低光图像包含照片捕获过程中产生的噪声。大多数图像是室内场景。所有图像的分辨率均为 400×600。
OpenDataLab 收录