dinercall-intent
收藏Hugging Face2025-04-08 更新2025-04-09 收录
下载链接:
https://huggingface.co/datasets/Luigi/dinercall-intent
下载链接
链接失效反馈官方服务:
资源简介:
DinerCall Intent是一个完全合成的意图分类数据集,包含餐厅应答机的留言记录。这些留言记录模拟了自动语音识别(ASR)的输出,可能包含典型的语音转文字错误。数据集中的留言超过80%是台湾中文,其余是英文。数据集用于意图分类任务,包括两个标签:预订(RESERVE)和其他(OTHERS)。
创建时间:
2025-04-08
原始信息汇总
DinerCall Intent 数据集概述
基本信息
- 数据集名称: DinerCall Intent
- 许可证: cc-by-4.0
- 语言: 中文(台湾)、英文
- 标签: phone, booking, restaurant
- 大小类别: n<1K
- 下载大小: 15031 字节
- 数据集大小: 23422 字节
数据集结构
- 格式: CSV
- 特征:
text: 字符串类型,模拟 ASR 输出的餐厅留言转录文本。label: 类别标签,包括OTHERS和RESERVE。
- 数据划分:
- 训练集: 299 个样本,20777 字节
- 测试集: 40 个样本,2645 字节
任务类别
- 任务类型: 文本分类
数据集描述
- 内容: 数据集为完全合成的意图分类数据集,内容为餐厅应答机上留的来电留言,模拟自动语音识别(ASR)输出,可能包含语音转文字错误。
- 语言分布: 超过 80% 为台湾中文,其余为英文。
- 生成方式: 由 OpenAI ChatGPT 协助生成。
意图标签
| CLASS | 意义 |
|---|---|
| RESERVE | 与订位与座位安排相关的询问与请求 |
| OTHERS | 所有非订位或预约类的其他留言 |
示例数据
csv "跨年當天有營業嗎?有沒有特別套餐?",OTHERS "哈囉,可以幫我訂今晚七點的位置嗎?兩位,謝謝!",RESERVE
搜集汇总
数据集介绍

构建方式
在餐饮服务智能化转型的背景下,DinerCall Intent数据集通过模拟真实场景中的语音交互需求构建而成。该数据集采用OpenAI ChatGPT生成合成数据,精准复现了餐厅应答机系统中常见的台湾中文与英文双语留言场景,其中台湾中文占比超过80%。数据构建过程特别注重模拟自动语音识别(ASR)系统的典型输出特征,包括语音转文字过程中可能出现的各类错误,确保了数据与现实应用场景的高度吻合。
特点
作为专注于餐饮服务意图识别领域的专业数据集,DinerCall Intent具备鲜明的领域特性。数据集包含299条训练样本和40条测试样本,采用CSV格式存储,每条记录均包含模拟ASR输出的文本转录和对应的意图标签。其核心价值在于精细划分的意图分类体系,将用户请求明确区分为RESERVE(订位相关)和OTHERS(其他咨询)两类,这种清晰的分类框架为意图识别模型提供了理想的训练基础。数据集语言构成反映台湾地区多语言使用实况,文本中自然融入的ASR错误特征更增强了数据的实用价值。
使用方法
该数据集主要服务于文本分类任务,特别适用于餐饮领域的意图识别系统开发。研究人员可通过HuggingFace平台直接获取CSV格式的数据文件,其中train和test分割已预先划分完成。使用时应重点关注text字段的ASR特征文本与label字段的意图标签映射关系,标签采用class_label类型存储,0对应OTHERS类,1对应RESERVE类。典型应用场景包括:基于transformer架构的意图分类模型训练、多语言场景下的ASR错误鲁棒性研究,以及餐饮领域对话系统的语义理解模块开发。数据集的轻量级特性(n<1K)使其特别适合作为基准测试和原型开发的首选资源。
背景与挑战
背景概述
DinerCall Intent数据集是专为意图分类任务设计的合成数据集,由OpenAI ChatGPT生成,模拟餐厅应答机上的来电留言。该数据集主要包含台湾中文和英语的文本,模拟自动语音识别(ASR)输出,涵盖订位请求和其他类型的留言。数据集的核心研究问题在于识别和分类来电意图,特别是区分订位请求(RESERVE)和其他类型留言(OTHERS)。这一数据集为自然语言处理领域中的意图分类任务提供了新的研究资源,尤其在多语言和语音转文本场景下具有重要价值。
当前挑战
DinerCall Intent数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,意图分类任务需要处理语音转文本过程中的噪声和错误,尤其是在多语言环境下,如何准确识别和分类不同语言的意图成为关键难题。构建过程中,合成数据的真实性和多样性是主要挑战,尽管使用ChatGPT生成数据可以模拟ASR输出,但与真实语音数据的差异可能影响模型的泛化能力。此外,数据集中台湾中文和英语的混合使用增加了语言处理的复杂性,要求模型具备跨语言理解能力。
常用场景
经典使用场景
在自然语言处理领域,dinercall-intent数据集为意图分类任务提供了典型的应用场景。该数据集模拟了餐厅应答机上的来电留言,涵盖了订位请求和其他常见询问,为研究者提供了一个真实且多样化的语料库。通过分析这些留言文本,模型可以学习识别用户意图,从而在实际应用中实现自动化处理。
实际应用
在实际应用中,dinercall-intent数据集可以用于开发智能客服系统和自动化订位平台。通过训练模型识别用户的订位请求和其他常见询问,餐厅和服务行业能够大幅提升客户服务的效率和准确性。这种自动化处理不仅减少了人工成本,还改善了用户体验。
衍生相关工作
dinercall-intent数据集已经衍生出多项经典研究工作,尤其是在多语言意图分类和噪声文本处理领域。研究者利用该数据集开发了多种先进的意图分类模型,这些模型在噪声环境下的表现尤为突出。此外,该数据集还被用于评估跨语言迁移学习方法的性能,推动了相关领域的技术进步。
以上内容由遇见数据集搜集并总结生成



