five

ReDial|对话推荐系统数据集

收藏
github2024-07-04 更新2024-07-05 收录
对话推荐系统
下载链接:
https://github.com/wangxieric/Conversational-AI-Datasets
下载链接
链接失效反馈
资源简介:
ReDial 数据集用于深度对话推荐研究。
创建时间:
2024-07-04
原始信息汇总

对话式AI数据集概述

对话式问答数据集

数据集 对话数量 收集方式 年份 下载链接
QuAC 13,569 众包 2018 下载
MANtIS 80,324 Stack Exchange 2019 下载
CoQA 8,399 众包 2019 下载
ShARC 948 众包 2018 下载
MSDialog 2,199 Microsoft Community 2018 下载

对话式搜索数据集

数据集 对话数量 语料库大小 收集方式 年份 下载链接
CAsT-19,20,21,22 30 - 50 38,426,252 众包 2019 下载
OR-QuAC 5,644 11,377,951 更新QuAC以实现自包含 2020 下载

对话式推荐数据集

数据集 对话数量 话语数量 领域 收集方式 语言 年份 下载链接
ReDial 10,006 182,150 电影 Amazon Mechanical Turk (AMT) 英语 2018 下载
OpenDialKG 12,320 71,873 电影 & 书籍 KG-walk众包 英语 2019 下载
INSPIRED 1,001 35,811 电影 社交鼓励众包 (AMT) 英语 2020 下载
TG-ReDial 10,000 129,392 电影 主题驱动生成, 众包 中文 2020 下载
DuRecDial2.0 16,482 255,346 电影, 音乐, 明星, 食物, 餐厅, 天气 从DuRecDial翻译 (众包) 英语, 中文 2021 下载
INSPIRED2 1,001 35,811 电影 清理 & 增强INSPIRED 英语 2022 下载
U-NEED 7,698 53,712 电子商务 淘宝预售对话 中文 2023 下载
PEARL 57,277 548,061 电影 基于评论的合成对话 英语 2024 下载

面向任务的对话系统数据集

数据集 对话数量 话语数量 领域数量 收集方式 语言 年份 下载链接
MultiWoZ 8,438 113,556 7 Wizard-of-Oz 英语 2018 下载
SGD 16,142 329,964 16 轮廓模拟然后众包改写 英语 2020 下载

多任务对话数据集

数据集 论文 链接
MG-ShopDial MG-ShopDial: A Multi-Goal Conversational Dataset for e-Commerce 链接

跨领域对话数据集

数据集 论文 链接
DialogStudio DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI 链接
AI搜集汇总
数据集介绍
main_image_url
构建方式
ReDial数据集的构建基于Amazon Mechanical Turk(AMT)平台,通过众包方式收集了10,006个对话,涵盖了电影推荐领域。每个对话由多个用户和推荐系统之间的交互组成,共计182,150条语句。数据集的设计旨在模拟真实世界中的对话推荐场景,确保对话的自然性和多样性。
使用方法
ReDial数据集适用于开发和评估对话推荐系统,特别是那些需要理解和生成自然语言对话的模型。研究者可以通过下载数据集,使用其中的对话进行模型训练和测试,以提升推荐系统的交互能力和推荐准确性。数据集的多样性和丰富性使其成为对话推荐领域的重要资源。
背景与挑战
背景概述
ReDial数据集,由Amazon Mechanical Turk(AMT)于2018年创建,专注于电影领域的对话推荐系统研究。该数据集包含10,006个对话和182,150条话语,旨在推动对话式人工智能技术在推荐系统中的应用。ReDial的推出填补了对话推荐领域数据集的空白,为研究人员提供了一个标准化的测试平台,促进了对话推荐系统的算法开发和评估。
当前挑战
ReDial数据集在构建过程中面临多项挑战。首先,对话推荐系统的复杂性要求数据集能够捕捉用户与系统之间的动态交互,这需要高质量的对话数据。其次,数据集的多样性和覆盖范围也是一个挑战,确保数据集能够代表不同用户群体和电影类型的需求。此外,数据集的标注和清洗过程也需耗费大量资源,以确保数据的准确性和一致性。这些挑战共同构成了ReDial数据集在实际应用中的主要障碍。
常用场景
经典使用场景
在对话推荐系统的研究领域中,ReDial数据集以其丰富的电影推荐对话而著称。该数据集包含了10,006个对话和182,150条话语,主要用于开发和评估对话推荐系统。研究者们利用ReDial数据集来训练和测试模型,以实现更自然、更智能的对话推荐功能。通过分析用户与系统之间的交互,模型能够学习到用户的偏好,从而提供个性化的电影推荐。
解决学术问题
ReDial数据集在学术研究中解决了对话推荐系统的核心问题,即如何在对话中有效地捕捉用户的兴趣和偏好,并据此生成合适的推荐。这一数据集为研究者提供了一个标准化的测试平台,使得不同模型之间的性能比较成为可能。此外,ReDial还推动了对话推荐系统在多轮对话中的表现研究,为提升用户体验和推荐准确性提供了重要的数据支持。
实际应用
在实际应用中,ReDial数据集为电影推荐系统提供了强大的数据基础。通过训练基于ReDial的模型,电影平台可以实现更加智能和个性化的推荐服务,提升用户满意度和平台粘性。此外,该数据集的应用不仅限于电影领域,还可以扩展到其他需要对话推荐功能的场景,如音乐、书籍等,从而推动了对话推荐技术在多个行业的实际应用。
数据集最近研究
最新研究方向
在对话推荐系统领域,ReDial数据集的最新研究方向主要集中在提升推荐系统的个性化和交互性。研究者们致力于通过深度学习和自然语言处理技术,增强模型对用户意图的理解和对话上下文的捕捉,从而提供更为精准和自然的推荐。此外,跨领域对话推荐系统的研究也逐渐受到关注,旨在通过整合多领域的对话数据,提升推荐系统的泛化能力和应用场景的多样性。这些研究不仅推动了对话推荐系统的发展,也为智能客服和个性化服务提供了新的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

BC-MRI-SEG

BC-MRI-SEG是一个专注于乳腺癌MRI肿瘤分割的基准数据集,由中佛罗里达大学计算机视觉研究中心创建。该数据集整合了四个公开的MRI数据集,包括RIDER、ISPY1、BreastDM和DUKE,总计包含1320名患者的数据。这些数据集在MRI扫描仪的使用、配置及数据处理方法上各有不同,提供了多样化的数据来源。数据集的创建旨在解决医学影像领域中标记数据缺乏的问题,并推动开发适用于临床环境的稳健且适应性强的模型。BC-MRI-SEG的应用领域主要集中在乳腺癌的诊断和治疗评估,通过深度学习方法提高肿瘤分割的准确性和效率。

arXiv 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

CBIS-DDSM

该数据集用于训练乳腺癌分类器或分割模型,包含3103张乳腺X光片,其中465张有多个异常。数据集分为训练集和测试集,还包括3568张裁剪的乳腺X光片和对应的掩码。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录