TOD-datasets

github2023-09-07 更新2024-05-31 收录

下载链接：

https://github.com/fivekilometers/TOD-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

任务型对话各方向数据集，包括多个领域的对话数据集，用于研究和开发任务型对话系统。

Task-oriented dialogue datasets across various domains, including multiple dialogue datasets, for the research and development of task-oriented dialogue systems.

创建时间：

2023-09-04

原始信息汇总

数据集概述

1. RHLT数据集

发布年份: 2016
来源: 剑桥大学
应用领域: 订餐、订房、买电脑和买电视

2. Maluuba Frames数据集

发布年份: 2017
类型: multi-domain dialogue corpus

3. WOZ (CamRest676)数据集

发布年份: 2017
来源: 剑桥大学

4. MemNN& bAbI数据集

发布年份: 2017
类型: 抽取式

5. personalized bAbI数据集

发布年份: 2017
类型: 抽取式

6. In-Car(KVRET)(SMD)(Key-Value Retrieval)数据集

发布年份: 2017

7. E2E数据集

发布年份: 2017
来源: 瓦特大学

8. Multilingual WOZ 2.0数据集

发布年份: 2017

9. MMD数据集

发布年份: 2018

10. 多印度语混合数据集

发布年份: 2018
来源: IIT

11. MultiWOZ数据集

发布年份: 2018

12. AirDialogue数据集

发布年份: 2018
来源: Google

13. Permuted bAbI数据集

发布年份: 2018
类型: 抽取式

14. OpenDialKG数据集

发布年份: 2019
来源: Facebook Conversational AI

15. CoSQL数据集

发布年份: 2019
来源: 耶鲁 Salesforce

16. MultiDoGO数据集

发布年份: 2019
来源: Amazon AWS AI

17. TaskMaster数据集

发布年份: 2019
来源: 谷歌

18. SGD数据集

发布年份: 2020
来源: 谷歌

19. MultiWOZ 2.2数据集

发布年份: 2020

20. MultiWOZ 2.3数据集

发布年份: 2020

21. TOD数据集

发布年份: 2020
来源: 上交普林斯顿

22. SIMMC数据集

发布年份: 2020
来源: Facebook

23. RiSAWOZ数据集

发布年份: 2020
来源: 苏州大学
语言: 中文

24. doc2dial数据集

发布年份: 2020
来源: IBM

25. MultiWOZ 2.1数据集

发布年份: 2020

26. CrossWOZ数据集

发布年份: 2020
来源: 清华
语言: 中文

27. SmcalFlow数据集

发布年份: 2020
来源: 微软

28. DialDoc 2021 Shared Task数据集

发布年份: 2021
来源: IBM

29. MultiDocDial数据集

发布年份: 2021
来源: IBM

30. FloDial数据集

发布年份: 2021
来源: IIT

31. SIMMC 2.0数据集

发布年份: 2021
来源: Facebook

32. CI-TOD数据集

发布年份: 2021
来源: 哈工大

33. ABCD数据集

发布年份: 2021

34. BiToD数据集

发布年份: 2021
来源: 港科大和阿里

35. HDRS数据集

发布年份: 2021
语言: 印地语

36. EmoWOZ数据集

发布年份: 2021
来源: 德国

37. JDDC 2.0数据集

发布年份: 2021
来源: 京东AI

38. TODSum数据集

发布年份: 2021
来源: 北邮美团移动

39. ALLWOZ数据集

发布年份: 2021
来源: 哥大

40. MTOP数据集

发布年份: 2021
来源: Facebook

41. 新数据集

发布年份: 2021
来源: Facebook

42. MMDialKB数据集

发布年份: 2021
来源: Facebook

43. DialogueZOO数据集

发布年份: 2022
来源: 上交

44. D4数据集

发布年份: 2022
来源: 上交

45. CookDial数据集

发布年份: 2022

46. ViWOZ数据集

发布年份: 2022

47. OB-TOD数据集

发布年份: 2022

48. GraphWOZ数据集

发布年份: 2022
来源: 挪威计算中心

49. C3数据集

发布年份: 2022

50. AWS S3 API5数据集

发布年份: 2022
来源: AWS AI Labs

51. SGDX数据集

发布年份: 2022
来源: 谷歌

52. OpenDialKG数据集

发布年份: 2022
来源: Facebook

53. FusedChat数据集

发布年份: 2022
来源: Facebook

54. GlobalWoZ数据集

发布年份: 2022
来源: 南洋理工达摩院

55. UniDS数据集

发布年份: 2022
来源: 中科大和华为

56. DuClarifyDial数据集

发布年份: 2022
来源: 百度

58. SalesBot数据集

发布年份: 2022
来源: 开源

58. SSD中文数据集

发布年份: 2022
来源: 北邮

59. DMR-FastFood数据集

发布年份: 2022
来源: Amazon AWS AI和复旦

60. MobileCS数据集

发布年份: 2022
来源: 北邮

61. COMET数据集

发布年份: 2022
来源: Meta Reality Labs & Meta AI

62. NLU++数据集

发布年份: 2022
来源: PolyAI

63. KETOD数据集

发布年份: 2022
来源: Meta

64. Multi2WOZ数据集

发布年份: 2022
来源: 曼海姆大学

65. PRESTO数据集

发布年份: 2023
来源: Google

66. ClariT数据集

发布年份: 2023
来源: UCL

67. SIMMC-VR数据集

发布年份: 2023
来源: 加州大学 META

68. GrounDialog数据集

发布年份: 2023
来源: Columbia和ETS

69. DSD数据集

发布年份: 2023
来源: 首尔大学和LG

70. Multi3NLU++数据集

发布年份: 2023
来源: 剑桥

71. TITAN数据集

发布年份: 2023
来源: 西电

72. Multi3WOZ数据集

发布年份: 2023
来源: 剑桥华为

搜集汇总

数据集介绍

构建方式

TOD-datasets的构建过程涵盖了多个领域和任务型对话系统的需求，通过整合来自不同研究机构和学术会议的多样化数据集，形成了一个综合性的任务型对话数据集集合。这些数据集大多基于Wizard-of-Oz实验方法，通过模拟真实对话场景，收集并标注了大量多轮对话数据。此外，部分数据集还引入了多语言、多模态和多领域的特性，进一步丰富了数据集的多样性和实用性。

使用方法

TOD-datasets的使用方法灵活多样，适用于多种任务型对话系统的研究和开发。研究人员可以通过该数据集进行对话状态跟踪、自然语言生成、语义解析等任务的实验和评估。数据集中的多语言和多模态特性也为跨语言和跨领域的对话系统研究提供了便利。此外，数据集的开放性和丰富的标注信息使得其能够被广泛应用于模型训练、性能评估和基准测试中，为任务型对话系统的创新和优化提供了坚实的基础。

背景与挑战

背景概述

TOD-datasets是一个专注于任务型对话（Task-Oriented Dialogue, TOD）的数据集集合，涵盖了从2016年至2023年间多个领域的研究成果。该数据集由多个研究机构和学者共同构建，包括剑桥大学、谷歌、Facebook、IBM等知名机构。其核心研究问题在于如何通过多领域、多模态和多语言的对话数据，推动任务型对话系统的智能化发展。TOD-datasets的创建为自然语言处理领域提供了丰富的资源，尤其是在对话状态跟踪、语义解析、多轮对话建模等方面，极大地促进了对话系统的技术进步。

当前挑战

TOD-datasets面临的挑战主要体现在两个方面。首先，任务型对话系统需要处理复杂的多轮对话场景，如何在多领域、多语言环境下保持对话的一致性和连贯性，仍然是一个亟待解决的问题。其次，数据集的构建过程中，标注的准确性和多样性是关键挑战。由于任务型对话涉及大量的领域知识和用户意图，如何确保数据标注的高质量和广泛覆盖，同时避免偏见和噪声，是构建过程中需要克服的主要难题。此外，随着对话系统向多模态和跨领域扩展，如何有效整合文本、语音、图像等多种模态信息，也成为数据集构建和模型训练中的一大挑战。

常用场景

经典使用场景

TOD-datasets广泛应用于任务型对话系统的研究与开发中，特别是在多领域对话生成、对话状态跟踪和对话管理等领域。这些数据集为研究者提供了丰富的对话样本，涵盖了从订餐、订房到复杂的信息检索等多种场景，使得模型能够在不同任务和领域中表现出色。

解决学术问题

TOD-datasets解决了任务型对话系统中的多个关键学术问题，如对话状态跟踪的准确性、多轮对话的连贯性以及跨领域对话的泛化能力。通过提供多样化的对话数据，研究者能够开发出更加鲁棒和智能的对话系统，显著提升了对话系统的实用性和用户体验。

实际应用

在实际应用中，TOD-datasets被广泛应用于智能客服、虚拟助手和智能家居等领域。例如，基于这些数据集训练的对话系统能够帮助用户完成订票、查询信息等任务，极大地提高了服务效率和用户满意度。此外，这些数据集还为多语言、多模态对话系统的开发提供了重要支持。

数据集最近研究