five

AlmyAI/SalesforceDialogStudio

收藏
Hugging Face2023-07-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AlmyAI/SalesforceDialogStudio
下载链接
链接失效反馈
官方服务:
资源简介:
DialogStudio是一个大型的统一对话数据集集合,旨在支持对话AI的研究和大型语言模型(LLM)的训练。该数据集统一了各个数据集并保留了其原始信息,同时提供了详细的数据集统计和质量评估结果。数据集的质量基于六个关键标准进行评估,包括理解、相关性、正确性、连贯性、完整性和整体质量。数据集可通过HuggingFace hub加载,并分为多个类别,如知识基础对话、自然语言理解、开放域对话、任务导向对话、对话摘要和对话推荐等。
提供机构:
AlmyAI
原始信息汇总

数据集概述

数据集名称

  • DialogStudio

数据集描述

  • DialogStudio是一个大型的统一对话数据集集合,旨在支持对话AI的研究,包括单个数据集研究和大型语言模型(LLM)训练。

数据集内容

  • 数据集分为多个类别,包括知识驱动对话、自然语言理解、开放域对话、任务导向对话、对话摘要和会话推荐对话。
  • 每个数据集包含详细的统计信息,可从数据集统计表获取。

数据集加载

  • 数据可通过HuggingFace平台加载,使用load_dataset函数,例如加载MULTIWOZ2_2数据集的示例代码如下: python from datasets import load_dataset

    dataset = load_dataset(Salesforce/dialogstudio, MULTIWOZ2_2)

数据集评估

  • DialogStudio评估对话质量基于六个关键标准:理解、相关性、正确性、连贯性、完整性和整体质量,每个标准评分范围为1至5。
  • 使用gpt-3.5-turbo评估了33个不同数据集,评估脚本可从链接访问。

数据集许可证

  • 数据集的许可证包括Apache License 2.0,部分数据集保留原始许可证,对于缺乏许可证的数据集,已引用相关论文。

数据集引用

  • 若使用DialogStudio的数据集,请引用以下文献:

    @misc{zhang2023dialogstudio, title={DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI}, author={Jianguo Zhang and Kun Qian and Zhiwei Liu and Shelby Heinecke and Rui Meng and Ye Liu and Zhou Yu and and Huan Wang and Silvio Savarese and Caiming Xiong}, year={2023}, eprint={2307.10172}, archivePrefix={arXiv}, primaryClass={cs.CL} }

数据集贡献

  • 欢迎社区贡献,共同推动对话AI领域的发展。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作