five

AppTek Call-Center Dialogues

收藏
arXiv2026-04-30 更新2026-05-02 收录
下载链接:
https://huggingface.co/datasets/apptek-com/apptek_callcenter_dialogues
下载链接
链接失效反馈
官方服务:
资源简介:
AppTek Call-Center Dialogues是由AppTek.ai构建的英语语音识别评测数据集,包含14种口音的自发性角色扮演客服对话。该数据集总计128.6小时音频,涉及156名说话者和16个服务场景,数据通过专业转录和严格质量审核流程生成。其特点是覆盖全球主流英语口音,保留对话中的不流畅现象和领域专有词汇,旨在解决长时对话ASR系统在多样化口音和真实交互场景下的评测难题。
提供机构:
AppTek.ai
创建时间:
2026-04-30
原始信息汇总

AppTek Call-Center Dialogues 数据集详情

数据集概述

AppTek Call-Center Dialogues 是一个面向英语自动语音识别(ASR)的长篇对话语音基准数据集,涵盖多种英语口音和服务领域,专为评估模型在真实呼叫中心场景下的表现而设计。

  • 总时长: 128.6 小时
  • 口音组: 14 个
  • 服务领域: 16 个
  • 对话时长: 5–15 分钟(长篇形式)
  • 音频格式: 分声道音频(每文件一个说话人)

数据集用途

直接用途

  • ASR 基准测试
  • 长篇转录评估
  • 口音鲁棒性分析
  • 对话式 AI 评估
  • 对分割敏感的 ASR 评估

非预期用途

  • 不用于训练或微调 ASR 或基础模型
  • 不适用于需要真实客户数据的应用

数据集结构

数据组织

数据集按口音组组织:

<accent>/ audio/ test.jsonl

每个对话包含两个单声道音频文件(每个说话人一个)。

数据特征

指标 数值
总时长 128.6 小时
说话人数 156
口音组数 14
领域数 16
对话数 873
音频文件(声道) 1,746
平均对话长度 10.4 分钟
对话长度范围 5–15 分钟
每种口音时长 ~8–11 小时

数据字段

  • audio: 音频文件名
  • text: 逐字转录文本
  • domain: 服务场景
  • gender: 说话人性别
  • accent: 口音元数据

数据实例

json { "audio": "en_ZA_Agriculture_1582346_channel1.wav", "text": "Good morning, thank you for calling...", "domain": "agriculture", "gender": "female", "accent": "native" }

数据划分

划分 大小
test 128.6 小时(1,746 个文件)

口音编码

编码 口音
en-AU 澳大利亚英语
en-CA 加拿大英语
en-CN 中式英语
en-GB 英式英语
en-GB_SCT 苏格兰英语
en-GB_WLS 威尔士英语
en-IE 爱尔兰英语
en-IN 印度英语
en-MX 墨西哥英语
en-SG 新加坡英语
en-US_Aave 非裔美国英语
en-US_General 标准美式英语
en-US_Southern 美国南部英语
en-ZA 南非英语

创建与标注

数据来源

  • 角色扮演的客服与客户对话
  • 通过 VoIP 平台录制
  • 时长:每会话 5–15 分钟(平均 10.4 分钟)
  • 设备:笔记本电脑(53%)、手机(42%)、平板(5%)
  • 环境:家中(78%)、室内公共场所(19%)、户外(3%)

说话人信息

  • 最小年龄: 18 岁
  • 说话人数: 156
  • 性别分布: 女性 102 人,男性 54 人
  • 年龄分布: 18–30 岁 76 人,30–50 岁 56 人,50–70 岁 24 人

标注过程

  • 完全手动转录(无预生成 ASR 输出)
  • 多阶段质量保证流程
  • 自动一致性检查:约 10% 的片段被标记复审,其中约 40% 被修正
  • 标注人员: 85 名专业标注员,母语或高度熟悉目标口音

评估方法

评估指标

使用 词错误率(WER),通过 jiwer 计算。

评分协议

标准化归一化流程:

  • 预处理:去除特定犹豫标记和部分单词
  • 归一化:Whisper EnglishTextNormalizer
  • 后处理:数据集特定单词映射(数字、时间、词汇变体)
  • 最终处理:小写化、去除标点、空白归一化、分词

推荐分割方法

  • 推荐工具: Silero VAD
  • 最小静默时长: 10.0 秒
  • 最小语音时长: 0.25 秒
  • 最大语音时长: 30 秒
  • 平均片段长度: ~16.5 秒

示例基准结果

模型 WER (%)
Qwen3-ASR (1.7B) 8.3
Parakeet v3 (0.6B) 9.2
Canary-Qwen (2.5B) 9.2
Granite Speech (8B) 11.9
Whisper Large v3 15.0

偏见、风险与局限

  • 角色扮演的交互(非真实客户通话)
  • 领域覆盖有限(仅服务场景)
  • 口音标签为粗粒度离散分类
  • 不同口音组间人口统计不平衡
  • 某些口音由有限说话人样本代表

引用

BibTeX:

@misc{beck2026apptekcallcenterdialoguesmultiaccent, title={AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR}, author={Eugen Beck and Sarah Beranek and Uma Moothiringote and Daniel Mann and Wilfried Michel and Katie Nguyen and Taylor Tragemann}, year={2026}, eprint={2604.27543}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2604.27543}, }

APA: Beck, E., Beranek, S., Moothiringote, U., Mann, D., Michel, D., Nguyen, K., & Tragemann, T. (2026). AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR. https://arxiv.org/abs/2604.27543

许可证

  • 许可协议: CC BY-SA 4.0
  • 策划方: AppTek.ai
  • 资助方: AppTek.ai
  • 发布方: AppTek.ai
搜集汇总
数据集介绍
main_image_url
构建方式
AppTek Call-Center Dialogues 数据集的构建始于特定场景的选取,涵盖农业、航空、银行等十六个面向服务的领域,并针对十四种英语口音进行角色扮演式自发对话录制。参与者通过呼叫中心合作伙伴、自由职业者及语音数据协作方招募,每口音组包含10至16位讲者,确保年龄与性别的多样性。对话以双轨16kHz、16位线性PCM格式通过VoIP平台录制,时长介于5至15分钟,平均约10.4分钟,共计128.6小时语音。录音设备多为消费级笔记本、手机或平板,主要环境为安静家居。专业注释者遵循逐字转录协议,保留犹豫、重复等会话现象,并标注非标准拼写与语种切换,经多轮人工与自动质量审核确保准确性。
特点
该数据集的核心特色在于其作为专用评估集的独特性:所有音频与文本均全新录制,未公开于训练语料中,有效规避了数据泄露风险。其口音覆盖广度达十四种,包括英式、美式通用、非裔美国人白话、印度、新加坡等变体,为系统性口音鲁棒性分析提供了可比条件。自发的角色扮演对话保留了真实呼叫中心中的不流畅、修复、命名实体及领域术语,反映了长时交互的复杂挑战。数据集中还包含约五小时的多语翻译子集(中文、德语、日语、西班牙语),支持跨语言评估。此外,精确的信噪比检测与剪辑监测等自动化质量控制,保障了录音的声学一致性。
使用方法
该数据集专为评估而非训练设计,可通过Hugging Face平台以Creative Commons 4.0 BY-SA许可获取。用户可直接加载单通道录音与逐字转录文本,用于测试自动语音识别系统在长时对话及多口音条件下的性能。评估时需注意分段策略的影响,如手动分段、应用VAD工具或固定时长切分,本文基准测试展示了不同方法导致的词错误率差异。数据集提供了标准化评分脚本,包括大小写、标点及数字归一化,确保结果可比。研究者可依据口音、性别、年龄等人口统计学维度进行分层分析,以深入探究模型在特定子群上的表现,并为口音泛化改进提供依据。
背景与挑战
背景概述
在自动语音识别领域,尽管已有诸如LibriSpeech等经典基准测试推动技术进步,但这些数据集多基于预先切分的朗读或准备性语音,难以真实反映口语化、长篇幅的对话场景。为填补这一空白,AppTek团队于2026年发布了AppTek Call-Center Dialogues语料库,该数据集由AppTek公司主导创建,旨在评估英语自动语音识别系统在多样口音下的长篇幅对话性能。研究团队招募了156名讲者,涵盖十四种英语口音,在受控条件下录制了128.6小时的自发角色扮演客服对话,覆盖十六个服务场景。作为目前最大的公开英语口音对话语音测试集,该语料库为评估口音鲁棒性和长篇幅语音理解提供了重要资源。
当前挑战
该数据集所解决的核心领域问题是现有基准测试在评估语音识别系统时,对口音多样性和长篇幅自发对话的覆盖不足。现有公开语料多基于短句朗读或公开数据,难以衡量系统在真实客服场景中对非标准口音、口语化现象及非预设文本的适应能力。在构建过程中,研究团队面临多重挑战:一是需确保跨口音讲者招募的均衡性与代表性,避免性别和地区分布偏差;二是复杂的标注流程要求专业标注员遵循逐字转录协议,保留犹豫、重复等口语现象,并辅以多轮质量审核和自动化检查,确保转录准确性;三是需防范与大型预训练数据的重叠风险,因此数据集完全从头构建,未使用公开音频或文本来源。
常用场景
经典使用场景
AppTek Call-Center Dialogues 数据集专为评估长篇幅、多口音英语对话语音识别系统而设计,其经典使用场景聚焦于模拟真实呼叫中心环境中代理与客户之间的自发互动。该语料库收录了涵盖十四种英语口音、涉及十六种服务领域(如银行、医疗、旅游等)的未分片录音,并保留了自然对话中的犹豫、重复、修复等非流畅现象,为衡量ASR模型在复杂声学与语言条件下的鲁棒性提供了极具代表性的测试平台。研究者通常利用该数据集分析不同分段策略(如手动对齐、固定长度切分或语音活动检测)对识别性能的影响,从而揭示长形式会话语音中边界检测的挑战性,并评估模型在跨口音、非预设口语场景下的泛化能力。
解决学术问题
该数据集针对学术研究中长期存在的两大瓶颈提供了系统性解决方案:一是公开基准测试集大多包含分段朗读或准备性语音,难以反映真实场景中长篇幅、自发性交互的复杂性;二是多数语料库缺乏明确的口音标注,无法支持对多口音鲁棒性的深入分析。通过构建一个完全去标化、角色扮演的呼叫中心对话语料,并配以精细化的口音分类与逐字转录协议,本研究使研究者能够在控制实验条件下量化不同ASR系统在跨口音(如新加坡英语、苏格兰英语、中文口音等)上的性能差异,并揭示平均准确率提升并不自动转化为口音均衡性这一关键学术洞察。该语料库的独特价值还在于其评估数据的私密性与新颖性,有效避免了模型训练数据与测试集之间的泄露风险,为建立更透明、可重复的ASR评价范式奠定了坚实基础。
衍生相关工作
自发布以来,该数据集已衍生出多项具有代表性的工作:在基准测试层面,研究者基于其多口音标注体系构建了跨方言性能排行榜,推动了诸如Qwen3-ASR、Whisper Large及Granite Speech等开源模型在长形式会话任务上的系统性对比分析;在学术探索上,部分工作利用该语料库探究口音适应性迁移学习方法,如通过域对抗训练或元学习策略提升模型对低资源口音(如威尔士英语、新加坡英语)的识别能力。此外,该数据集还启发了关于语音分段策略优化的研究,例如将端到端语音识别与动态VAD分段相结合,以缓解固定窗口切分带来的性能波动。在公平性与包容性方面,利用其细致的口音与性别标注信息,衍生出关于ASR系统在多元人口统计维度上公平性评估的讨论,促进了负责任的AI评测标准的确立。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作