ibm/clinic150-sur
收藏Hugging Face2023-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ibm/clinic150-sur
下载链接
链接失效反馈官方服务:
资源简介:
Clinic150-SUR数据集是一个新颖且增强的数据集,旨在模拟与客户服务中心交互时的自然人类行为。该数据集扩展了Clinic150数据集,并采用了两种增强技术,包括IBM的LAMBADA模型和Parrot模型,以及精心策划的重复话语。通过这种方式,数据集能够更全面地反映客户服务交互的实际情况,有助于开发和评估健壮且高效的对话系统。数据集的关键特性包括使用LAMBADA模型增强对话数据的多样性和复杂性,集成Parrot模型提供多种释义,以及包含重复话语以模拟用户重新表述或重复常见查询的情况。
Clinic150-SUR数据集是一个新颖且增强的数据集,旨在模拟与客户服务中心交互时的自然人类行为。该数据集扩展了Clinic150数据集,并采用了两种增强技术,包括IBM的LAMBADA模型和Parrot模型,以及精心策划的重复话语。通过这种方式,数据集能够更全面地反映客户服务交互的实际情况,有助于开发和评估健壮且高效的对话系统。数据集的关键特性包括使用LAMBADA模型增强对话数据的多样性和复杂性,集成Parrot模型提供多种释义,以及包含重复话语以模拟用户重新表述或重复常见查询的情况。
提供机构:
ibm
原始信息汇总
数据集概述
数据集名称
- 名称: Clinic150-SUR
数据集概要
- 描述: Clinic150-SUR是一个扩展和增强的数据集,旨在模拟人类在与客户服务中心交互时的自然行为。该数据集通过结合IBM的LAMBADA模型和Parrot模型,以及精心策划的重复语句,提供了对客户服务交互更全面和真实的表示。
关键特性
- 数据增强: 利用IBM的LAMBADA模型和Parrot模型进行数据增强,增加了对话数据的多样性和复杂性。
- 重复语句: 包括精心策划的重复语句,以模拟用户重新表述或重复常见查询的真实场景。
- 基础数据集: 基于Clinic150数据集,保留了原有的领域专业知识,同时更好地反映了用户向对话系统提出的请求的性质。
数据实例
- 下载数据集大小: 29 MB
数据字段
- intent: 字符串类型
- user_utterance: 字符串类型
- origin: 字符串类型,可能的值为original, lambada, parrot
引用信息
@inproceedings{rabinovich2022reliable, title={Reliable and Interpretable Drift Detection in Streams of Short Texts}, author={Rabinovich, Ella and Vetzler, Matan and Ackerman, Samuel and Anaby-Tavor, Ateret}, booktitle = "Proceedings of the 61th Annual Meeting of the Association for Computational Linguistics (industry track)", publisher = "Association for Computational Linguistics", year={2023}, url={https://arxiv.org/abs/2305.17750} }



