AlmyAI/SalesforceDialogStudio
收藏Hugging Face2023-07-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AlmyAI/SalesforceDialogStudio
下载链接
链接失效反馈官方服务:
资源简介:
DialogStudio是一个大型的统一对话数据集集合,旨在支持对话AI的研究和大型语言模型(LLM)的训练。该数据集统一了各个数据集并保留了其原始信息,同时提供了详细的数据集统计和质量评估结果。数据集的质量基于六个关键标准进行评估,包括理解、相关性、正确性、连贯性、完整性和整体质量。数据集可通过HuggingFace hub加载,并分为多个类别,如知识基础对话、自然语言理解、开放域对话、任务导向对话、对话摘要和对话推荐等。
提供机构:
AlmyAI
原始信息汇总
数据集概述
数据集名称
- DialogStudio
数据集描述
- DialogStudio是一个大型的统一对话数据集集合,旨在支持对话AI的研究,包括单个数据集研究和大型语言模型(LLM)训练。
数据集内容
- 数据集分为多个类别,包括知识驱动对话、自然语言理解、开放域对话、任务导向对话、对话摘要和会话推荐对话。
- 每个数据集包含详细的统计信息,可从数据集统计表获取。
数据集加载
-
数据可通过HuggingFace平台加载,使用
load_dataset函数,例如加载MULTIWOZ2_2数据集的示例代码如下: python from datasets import load_datasetdataset = load_dataset(Salesforce/dialogstudio, MULTIWOZ2_2)
数据集评估
- DialogStudio评估对话质量基于六个关键标准:理解、相关性、正确性、连贯性、完整性和整体质量,每个标准评分范围为1至5。
- 使用
gpt-3.5-turbo评估了33个不同数据集,评估脚本可从链接访问。
数据集许可证
- 数据集的许可证包括Apache License 2.0,部分数据集保留原始许可证,对于缺乏许可证的数据集,已引用相关论文。
数据集引用
-
若使用DialogStudio的数据集,请引用以下文献:
@misc{zhang2023dialogstudio, title={DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI}, author={Jianguo Zhang and Kun Qian and Zhiwei Liu and Shelby Heinecke and Rui Meng and Ye Liu and Zhou Yu and and Huan Wang and Silvio Savarese and Caiming Xiong}, year={2023}, eprint={2307.10172}, archivePrefix={arXiv}, primaryClass={cs.CL} }
数据集贡献
- 欢迎社区贡献,共同推动对话AI领域的发展。



