five

ibm/clinic150-sur

收藏
Hugging Face2023-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ibm/clinic150-sur
下载链接
链接失效反馈
官方服务:
资源简介:
Clinic150-SUR数据集是一个新颖且增强的数据集,旨在模拟与客户服务中心交互时的自然人类行为。该数据集扩展了Clinic150数据集,并采用了两种增强技术,包括IBM的LAMBADA模型和Parrot模型,以及精心策划的重复话语。通过这种方式,数据集能够更全面地反映客户服务交互的实际情况,有助于开发和评估健壮且高效的对话系统。数据集的关键特性包括使用LAMBADA模型增强对话数据的多样性和复杂性,集成Parrot模型提供多种释义,以及包含重复话语以模拟用户重新表述或重复常见查询的情况。

Clinic150-SUR数据集是一个新颖且增强的数据集,旨在模拟与客户服务中心交互时的自然人类行为。该数据集扩展了Clinic150数据集,并采用了两种增强技术,包括IBM的LAMBADA模型和Parrot模型,以及精心策划的重复话语。通过这种方式,数据集能够更全面地反映客户服务交互的实际情况,有助于开发和评估健壮且高效的对话系统。数据集的关键特性包括使用LAMBADA模型增强对话数据的多样性和复杂性,集成Parrot模型提供多种释义,以及包含重复话语以模拟用户重新表述或重复常见查询的情况。
提供机构:
ibm
原始信息汇总

数据集概述

数据集名称

  • 名称: Clinic150-SUR

数据集概要

  • 描述: Clinic150-SUR是一个扩展和增强的数据集,旨在模拟人类在与客户服务中心交互时的自然行为。该数据集通过结合IBM的LAMBADA模型和Parrot模型,以及精心策划的重复语句,提供了对客户服务交互更全面和真实的表示。

关键特性

  • 数据增强: 利用IBM的LAMBADA模型和Parrot模型进行数据增强,增加了对话数据的多样性和复杂性。
  • 重复语句: 包括精心策划的重复语句,以模拟用户重新表述或重复常见查询的真实场景。
  • 基础数据集: 基于Clinic150数据集,保留了原有的领域专业知识,同时更好地反映了用户向对话系统提出的请求的性质。

数据实例

  • 下载数据集大小: 29 MB

数据字段

  • intent: 字符串类型
  • user_utterance: 字符串类型
  • origin: 字符串类型,可能的值为original, lambada, parrot

引用信息

@inproceedings{rabinovich2022reliable, title={Reliable and Interpretable Drift Detection in Streams of Short Texts}, author={Rabinovich, Ella and Vetzler, Matan and Ackerman, Samuel and Anaby-Tavor, Ateret}, booktitle = "Proceedings of the 61th Annual Meeting of the Association for Computational Linguistics (industry track)", publisher = "Association for Computational Linguistics", year={2023}, url={https://arxiv.org/abs/2305.17750} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作