TOD-datasets
收藏github2023-09-07 更新2024-05-31 收录
下载链接:
https://github.com/fivekilometers/TOD-datasets
下载链接
链接失效反馈官方服务:
资源简介:
任务型对话各方向数据集,包括多个领域的对话数据集,用于研究和开发任务型对话系统。
Task-oriented dialogue datasets across various domains, including multiple dialogue datasets, for the research and development of task-oriented dialogue systems.
创建时间:
2023-09-04
原始信息汇总
数据集概述
1. RHLT数据集
- 发布年份: 2016
- 来源: 剑桥大学
- 应用领域: 订餐、订房、买电脑和买电视
2. Maluuba Frames数据集
- 发布年份: 2017
- 类型: multi-domain dialogue corpus
3. WOZ (CamRest676)数据集
- 发布年份: 2017
- 来源: 剑桥大学
4. MemNN& bAbI数据集
- 发布年份: 2017
- 类型: 抽取式
5. personalized bAbI数据集
- 发布年份: 2017
- 类型: 抽取式
6. In-Car(KVRET)(SMD)(Key-Value Retrieval)数据集
- 发布年份: 2017
7. E2E数据集
- 发布年份: 2017
- 来源: 瓦特大学
8. Multilingual WOZ 2.0数据集
- 发布年份: 2017
9. MMD数据集
- 发布年份: 2018
10. 多印度语混合数据集
- 发布年份: 2018
- 来源: IIT
11. MultiWOZ数据集
- 发布年份: 2018
12. AirDialogue数据集
- 发布年份: 2018
- 来源: Google
13. Permuted bAbI数据集
- 发布年份: 2018
- 类型: 抽取式
14. OpenDialKG数据集
- 发布年份: 2019
- 来源: Facebook Conversational AI
15. CoSQL数据集
- 发布年份: 2019
- 来源: 耶鲁 Salesforce
16. MultiDoGO数据集
- 发布年份: 2019
- 来源: Amazon AWS AI
17. TaskMaster数据集
- 发布年份: 2019
- 来源: 谷歌
18. SGD数据集
- 发布年份: 2020
- 来源: 谷歌
19. MultiWOZ 2.2数据集
- 发布年份: 2020
20. MultiWOZ 2.3数据集
- 发布年份: 2020
21. TOD数据集
- 发布年份: 2020
- 来源: 上交 普林斯顿
22. SIMMC数据集
- 发布年份: 2020
- 来源: Facebook
23. RiSAWOZ数据集
- 发布年份: 2020
- 来源: 苏州大学
- 语言: 中文
24. doc2dial数据集
- 发布年份: 2020
- 来源: IBM
25. MultiWOZ 2.1数据集
- 发布年份: 2020
26. CrossWOZ数据集
- 发布年份: 2020
- 来源: 清华
- 语言: 中文
27. SmcalFlow数据集
- 发布年份: 2020
- 来源: 微软
28. DialDoc 2021 Shared Task数据集
- 发布年份: 2021
- 来源: IBM
29. MultiDocDial数据集
- 发布年份: 2021
- 来源: IBM
30. FloDial数据集
- 发布年份: 2021
- 来源: IIT
31. SIMMC 2.0数据集
- 发布年份: 2021
- 来源: Facebook
32. CI-TOD数据集
- 发布年份: 2021
- 来源: 哈工大
33. ABCD数据集
- 发布年份: 2021
34. BiToD数据集
- 发布年份: 2021
- 来源: 港科大和阿里
35. HDRS数据集
- 发布年份: 2021
- 语言: 印地语
36. EmoWOZ数据集
- 发布年份: 2021
- 来源: 德国
37. JDDC 2.0数据集
- 发布年份: 2021
- 来源: 京东AI
38. TODSum数据集
- 发布年份: 2021
- 来源: 北邮 美团 移动
39. ALLWOZ数据集
- 发布年份: 2021
- 来源: 哥大
40. MTOP数据集
- 发布年份: 2021
- 来源: Facebook
41. 新数据集
- 发布年份: 2021
- 来源: Facebook
42. MMDialKB数据集
- 发布年份: 2021
- 来源: Facebook
43. DialogueZOO数据集
- 发布年份: 2022
- 来源: 上交
44. D4数据集
- 发布年份: 2022
- 来源: 上交
45. CookDial数据集
- 发布年份: 2022
46. ViWOZ数据集
- 发布年份: 2022
47. OB-TOD数据集
- 发布年份: 2022
48. GraphWOZ数据集
- 发布年份: 2022
- 来源: 挪威计算中心
49. C3数据集
- 发布年份: 2022
50. AWS S3 API5数据集
- 发布年份: 2022
- 来源: AWS AI Labs
51. SGDX数据集
- 发布年份: 2022
- 来源: 谷歌
52. OpenDialKG数据集
- 发布年份: 2022
- 来源: Facebook
53. FusedChat数据集
- 发布年份: 2022
- 来源: Facebook
54. GlobalWoZ数据集
- 发布年份: 2022
- 来源: 南洋理工 达摩院
55. UniDS数据集
- 发布年份: 2022
- 来源: 中科大和华为
56. DuClarifyDial数据集
- 发布年份: 2022
- 来源: 百度
58. SalesBot数据集
- 发布年份: 2022
- 来源: 开源
58. SSD中文数据集
- 发布年份: 2022
- 来源: 北邮
59. DMR-FastFood数据集
- 发布年份: 2022
- 来源: Amazon AWS AI和复旦
60. MobileCS数据集
- 发布年份: 2022
- 来源: 北邮
61. COMET数据集
- 发布年份: 2022
- 来源: Meta Reality Labs & Meta AI
62. NLU++数据集
- 发布年份: 2022
- 来源: PolyAI
63. KETOD数据集
- 发布年份: 2022
- 来源: Meta
64. Multi2WOZ数据集
- 发布年份: 2022
- 来源: 曼海姆大学
65. PRESTO数据集
- 发布年份: 2023
- 来源: Google
66. ClariT数据集
- 发布年份: 2023
- 来源: UCL
67. SIMMC-VR数据集
- 发布年份: 2023
- 来源: 加州大学 META
68. GrounDialog数据集
- 发布年份: 2023
- 来源: Columbia和ETS
69. DSD数据集
- 发布年份: 2023
- 来源: 首尔大学和LG
70. Multi3NLU++数据集
- 发布年份: 2023
- 来源: 剑桥
71. TITAN数据集
- 发布年份: 2023
- 来源: 西电
72. Multi3WOZ数据集
- 发布年份: 2023
- 来源: 剑桥华为
搜集汇总
数据集介绍

构建方式
TOD-datasets的构建过程涵盖了多个领域和任务型对话系统的需求,通过整合来自不同研究机构和学术会议的多样化数据集,形成了一个综合性的任务型对话数据集集合。这些数据集大多基于Wizard-of-Oz实验方法,通过模拟真实对话场景,收集并标注了大量多轮对话数据。此外,部分数据集还引入了多语言、多模态和多领域的特性,进一步丰富了数据集的多样性和实用性。
使用方法
TOD-datasets的使用方法灵活多样,适用于多种任务型对话系统的研究和开发。研究人员可以通过该数据集进行对话状态跟踪、自然语言生成、语义解析等任务的实验和评估。数据集中的多语言和多模态特性也为跨语言和跨领域的对话系统研究提供了便利。此外,数据集的开放性和丰富的标注信息使得其能够被广泛应用于模型训练、性能评估和基准测试中,为任务型对话系统的创新和优化提供了坚实的基础。
背景与挑战
背景概述
TOD-datasets是一个专注于任务型对话(Task-Oriented Dialogue, TOD)的数据集集合,涵盖了从2016年至2023年间多个领域的研究成果。该数据集由多个研究机构和学者共同构建,包括剑桥大学、谷歌、Facebook、IBM等知名机构。其核心研究问题在于如何通过多领域、多模态和多语言的对话数据,推动任务型对话系统的智能化发展。TOD-datasets的创建为自然语言处理领域提供了丰富的资源,尤其是在对话状态跟踪、语义解析、多轮对话建模等方面,极大地促进了对话系统的技术进步。
当前挑战
TOD-datasets面临的挑战主要体现在两个方面。首先,任务型对话系统需要处理复杂的多轮对话场景,如何在多领域、多语言环境下保持对话的一致性和连贯性,仍然是一个亟待解决的问题。其次,数据集的构建过程中,标注的准确性和多样性是关键挑战。由于任务型对话涉及大量的领域知识和用户意图,如何确保数据标注的高质量和广泛覆盖,同时避免偏见和噪声,是构建过程中需要克服的主要难题。此外,随着对话系统向多模态和跨领域扩展,如何有效整合文本、语音、图像等多种模态信息,也成为数据集构建和模型训练中的一大挑战。
常用场景
经典使用场景
TOD-datasets广泛应用于任务型对话系统的研究与开发中,特别是在多领域对话生成、对话状态跟踪和对话管理等领域。这些数据集为研究者提供了丰富的对话样本,涵盖了从订餐、订房到复杂的信息检索等多种场景,使得模型能够在不同任务和领域中表现出色。
解决学术问题
TOD-datasets解决了任务型对话系统中的多个关键学术问题,如对话状态跟踪的准确性、多轮对话的连贯性以及跨领域对话的泛化能力。通过提供多样化的对话数据,研究者能够开发出更加鲁棒和智能的对话系统,显著提升了对话系统的实用性和用户体验。
实际应用
在实际应用中,TOD-datasets被广泛应用于智能客服、虚拟助手和智能家居等领域。例如,基于这些数据集训练的对话系统能够帮助用户完成订票、查询信息等任务,极大地提高了服务效率和用户满意度。此外,这些数据集还为多语言、多模态对话系统的开发提供了重要支持。
数据集最近研究
最新研究方向
近年来,任务型对话系统(TOD)领域的研究呈现出多模态、多语言和多任务融合的趋势。随着深度学习技术的进步,研究者们不仅关注单一领域的对话建模,还致力于开发跨领域、跨语言的对话数据集。例如,MultiWOZ系列数据集的持续更新和扩展,为多领域任务型对话系统的研究提供了丰富的实验基础。此外,Facebook发布的OpenDialKG数据集和Google的SGD数据集,进一步推动了知识图谱与对话系统的结合,增强了对话系统的语义理解和推理能力。与此同时,多模态对话数据集如SIMMC和SIMMC-VR的推出,为沉浸式对话系统的研究开辟了新的方向。这些数据集的涌现,不仅提升了任务型对话系统的性能,还为其在实际应用中的广泛部署奠定了坚实的基础。
以上内容由遇见数据集搜集并总结生成



