apptek-com/apptek_callcenter_dialogues
收藏Hugging Face2026-05-08 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/apptek-com/apptek_callcenter_dialogues
下载链接
链接失效反馈官方服务:
资源简介:
AppTek Call-Center Dialogues是一个用于自动语音识别(ASR)的长形式对话语音数据集,特点是包含多种英语口音,覆盖多个服务领域,旨在评估模型在真实呼叫中心交互中的表现。数据集包含128.6小时的语音,14种英语口音组,16个服务领域,5-15分钟的对话(长形式),以及分通道音频(每个文件一个说话者)。数据集的设计目的是评估ASR系统在真实对话条件下的表现,包括长时间的互动、不流畅和修复,以及领域特定语言。所有音频和转录都是新收集的,不依赖公开可用的资源,减少了与大规模训练语料库重叠的风险。数据集包含156个说话者的128.6小时语音,专门用于评估和分析,而不是模型训练。
AppTek Call-Center Dialogues is a long-form conversational speech dataset for automatic speech recognition (ASR), featuring diverse English accents across multiple service-oriented domains and designed to evaluate models on realistic call-center interactions. The dataset contains 128.6 hours of speech, 14 English accent groups, 16 service domains, 5–15 minute conversations (long-form), and split-channel audio (one speaker per file). It is designed to evaluate ASR systems under realistic conversational conditions, including extended interactions with disfluencies, repairs, and domain-specific language. All audio and transcripts were newly collected for this benchmark and do not rely on publicly available sources, reducing the risk of overlap with large-scale training corpora. The dataset contains 128.6 hours of speech from 156 speakers and is intended exclusively for evaluation and analysis rather than model training.
提供机构:
apptek-com
搜集汇总
数据集介绍

构建方式
AppTek Call-Center Dialogues是一个专为自动语音识别(ASR)系统设计的英文对话语音基准数据集。该数据集通过角色扮演的方式,模拟客服中心中代理与客户之间的自发对话,涵盖14种英语口音群体和16个服务导向领域。所有音频和转录文本均为全新采集,通过VoIP平台录制,对话时长在5至15分钟之间,平均约10.4分钟。录制设备包括笔记本电脑(53%)、手机(42%)和平板(5%),环境多为家庭(78%),并允许轻微的背景噪音以保持自然性。转录过程采用完全人工标注,经过多阶段质量保证流程,包括自动化一致性检查,其中约10%的片段被标记进行复审,约40%的片段得到修正。数据集共包含156名讲者,总时长128.6小时,被组织成测试集,专用于评估而非模型训练。
使用方法
使用该数据集进行ASR评估需遵循标准化流程。首先,推荐采用Silero VAD进行语音活动检测分割,设置最小静音时长为10秒、最小语音时长为0.25秒、最大语音时长为30秒,平均分割片段长度约16.5秒。随后,对分割后的音频运行ASR模型进行推理,并将预测结果保存为JSON格式文件,包含音频文件名和对应转录文本。评估指标为词错误率(WER),通过jiwer库计算。在计算前,需应用Whisper EnglishTextNormalizer进行标准化,包括预清理去除犹豫标记和部分单词、后处理应用数据集特定词映射(如数字、时间、词汇变体),最终进行小写化、标点去除、空格标准化和分词。预测与参考依据音频文件名匹配,仅包含两者都存在的文件。评估结果建议报告所有口音的平均WER,并注明分割策略和标准化设置。
背景与挑战
背景概述
AppTek Call-Center Dialogues数据集由AppTek.ai团队于2026年创建,专注于多口音英语长对话语音识别。该数据集包含128.6小时的客服对话录音,覆盖14种英语口音和16个服务领域,由156位说话者通过角色扮演方式录制。其核心研究问题在于评估自动语音识别系统在真实客服场景下的表现,特别是面对口音多样性、自发语音及长对话结构时的鲁棒性。作为目前最大规模的公开多口音英语对话语音基准,该数据集弥补了传统基准如LibriSpeech在长时段、多口音覆盖及会话性语音评估上的不足,对推动语音识别技术的泛化能力与公平性评价具有重要影响力。
当前挑战
该数据集所解决的领域问题包括:1)现有ASR基准多基于短时、预设文本的语音,缺乏对自发、非流畅长对话的评估能力;2)口音多样性覆盖不足,导致模型在真实场景下对非标准口音表现不佳;3)对话中停顿、修复等语言现象及领域专用词汇增加了识别难度。构建过程中的挑战包括:确保14种口音的均衡分布及说话者代表性,设计自然且可控的角色扮演对话以模拟真实客服交互,以及实施多阶段人工转录与质量审核流程以保证标注准确性。此外,评估时对语音分割策略的高度敏感性要求制定标准化协议,以保障结果的可重复性与可比性。
常用场景
经典使用场景
AppTek Call-Center Dialogues 数据集被广泛用作英语自动语音识别(ASR)系统的长时段、多口音对话语音基准测试。其典型使用场景包括评估模型在客服中心自然交互环境下的转录性能,特别是针对5至15分钟连续性语音、含犹豫词和修复现象的自发式对话。研究者利用该数据集考核ASR系统在14种英语口音(如澳大利亚、印度、非裔美国英语等)上的鲁棒性,并探索语音分割策略对词错误率(WER)的影响,为长语音识别评估提供了标准化平台。
解决学术问题
该数据集解决了现有ASR基准(如LibriSpeech、Common Voice)依赖短音频、预分割数据和朗读风格语音的局限性,填补了对自然对话中口音多样性与长时语音评估的空白。它使学者能够系统分析不同英语变体在真实客服场景下的识别偏差,揭示模型在跨口音任务中超过10%的WER差异,从而推动对话语音处理、口音鲁棒性增强和分割敏感性评估三个研究方向的发展,其128.6小时完全人工标注的数据保障了评测的可靠性。
实际应用
在工业界,该数据集主要用于优化智能客服系统的语音识别组件,帮助企业评估其ASR模型在处理带有区域口音、背景噪声和领域特异性术语(如农业、金融)的长时间通话录音时的实效。实际场景包括银行语音导航、电信技术支持自动转录以及多语言客户服务中心质量监控,其分割-sensitive评估协议为部署实时语音引擎提供了兼容性参考,同时CC BY-SA 4.0许可允许商用研究。
数据集最近研究
最新研究方向
AppTek Call-Center Dialogues作为首个大规模公开的多口音长对话语音识别基准,正推动自动语音识别(ASR)研究从短时、朗读式评估向真实客服场景下的自发对话评测转型。该数据集涵盖14种英语口音、16个服务领域及128.6小时5-15分钟的长对话音频,特别关注口音鲁棒性与分段敏感度评估,弥补了LibriSpeech等传统基准在对话流利度、口音多样性上的不足。伴随Qwen3-ASR等模型在该基准上取得8.3%的词错误率(WER),而不同口音间WER差异可超10%,数据集凸显了口音公平性评估的紧迫性。其标准化评估流程(含Whisper归一化与Silero VAD分段协议)为对比分析提供了可复现框架,助力行业开发更包容、鲁棒的客服ASR系统。
以上内容由遇见数据集搜集并总结生成



