ReDial|对话推荐系统数据集
收藏对话式AI数据集概述
对话式问答数据集
数据集 | 对话数量 | 收集方式 | 年份 | 下载链接 |
---|---|---|---|---|
QuAC | 13,569 | 众包 | 2018 | 下载 |
MANtIS | 80,324 | Stack Exchange | 2019 | 下载 |
CoQA | 8,399 | 众包 | 2019 | 下载 |
ShARC | 948 | 众包 | 2018 | 下载 |
MSDialog | 2,199 | Microsoft Community | 2018 | 下载 |
对话式搜索数据集
数据集 | 对话数量 | 语料库大小 | 收集方式 | 年份 | 下载链接 |
---|---|---|---|---|---|
CAsT-19,20,21,22 | 30 - 50 | 38,426,252 | 众包 | 2019 | 下载 |
OR-QuAC | 5,644 | 11,377,951 | 更新QuAC以实现自包含 | 2020 | 下载 |
对话式推荐数据集
数据集 | 对话数量 | 话语数量 | 领域 | 收集方式 | 语言 | 年份 | 下载链接 |
---|---|---|---|---|---|---|---|
ReDial | 10,006 | 182,150 | 电影 | Amazon Mechanical Turk (AMT) | 英语 | 2018 | 下载 |
OpenDialKG | 12,320 | 71,873 | 电影 & 书籍 | KG-walk众包 | 英语 | 2019 | 下载 |
INSPIRED | 1,001 | 35,811 | 电影 | 社交鼓励众包 (AMT) | 英语 | 2020 | 下载 |
TG-ReDial | 10,000 | 129,392 | 电影 | 主题驱动生成, 众包 | 中文 | 2020 | 下载 |
DuRecDial2.0 | 16,482 | 255,346 | 电影, 音乐, 明星, 食物, 餐厅, 天气 | 从DuRecDial翻译 (众包) | 英语, 中文 | 2021 | 下载 |
INSPIRED2 | 1,001 | 35,811 | 电影 | 清理 & 增强INSPIRED | 英语 | 2022 | 下载 |
U-NEED | 7,698 | 53,712 | 电子商务 | 淘宝预售对话 | 中文 | 2023 | 下载 |
PEARL | 57,277 | 548,061 | 电影 | 基于评论的合成对话 | 英语 | 2024 | 下载 |
面向任务的对话系统数据集
数据集 | 对话数量 | 话语数量 | 领域数量 | 收集方式 | 语言 | 年份 | 下载链接 |
---|---|---|---|---|---|---|---|
MultiWoZ | 8,438 | 113,556 | 7 | Wizard-of-Oz | 英语 | 2018 | 下载 |
SGD | 16,142 | 329,964 | 16 | 轮廓模拟然后众包改写 | 英语 | 2020 | 下载 |
多任务对话数据集
数据集 | 论文 | 链接 |
---|---|---|
MG-ShopDial | MG-ShopDial: A Multi-Goal Conversational Dataset for e-Commerce | 链接 |
跨领域对话数据集
数据集 | 论文 | 链接 |
---|---|---|
DialogStudio | DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI | 链接 |

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
BC-MRI-SEG
BC-MRI-SEG是一个专注于乳腺癌MRI肿瘤分割的基准数据集,由中佛罗里达大学计算机视觉研究中心创建。该数据集整合了四个公开的MRI数据集,包括RIDER、ISPY1、BreastDM和DUKE,总计包含1320名患者的数据。这些数据集在MRI扫描仪的使用、配置及数据处理方法上各有不同,提供了多样化的数据来源。数据集的创建旨在解决医学影像领域中标记数据缺乏的问题,并推动开发适用于临床环境的稳健且适应性强的模型。BC-MRI-SEG的应用领域主要集中在乳腺癌的诊断和治疗评估,通过深度学习方法提高肿瘤分割的准确性和效率。
arXiv 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
CBIS-DDSM
该数据集用于训练乳腺癌分类器或分割模型,包含3103张乳腺X光片,其中465张有多个异常。数据集分为训练集和测试集,还包括3568张裁剪的乳腺X光片和对应的掩码。
github 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录