Conversational-Reasoning/Topical-ChatASR
收藏Topical-Chat ASR 数据集概述
数据集基本信息
- 许可证: cdla-sharing-1.0
- 任务类别:
- 对话
- 文本分类
- 特征提取
- 语言: 英语
- 名称: Topical-Chat
- 规模: 100K<n<1M
数据集描述
Topical-Chat ASR 是 Topical-Chat 数据集的一个增强版本,包含了非平凡的合成和实际的自动语音识别(ASR)假设。
合成数据
- 路径:
/TopicalChatASR/synthetic - 描述:
- 每个原始 Topical-Chat 数据集文件都构建了四个不同目标词错误率(WER)的非平凡合成 ASR 假设。
- 使用基于 n-gram 混淆矩阵的 ASR 错误模拟方法,并在内部用户研究的转录 ASR 输出上训练模拟器。
- 目标 WER 分别为 0.1, 0.15, 0.2 和 0.3。
- 每个目标 WER 对应的文件数量:
- 1 个训练文件
- 5 个
valid_freq文件,5 个valid_rare文件 - 5 个
test_freq文件,5 个test_rare文件
- 每个对话中的每个回合,
"message"键包含原始文本消息,"message_sim_asr"键包含相应的错误模拟消息。
实际数据
- 描述:
- 对于原始 Topical-Chat 测试集的一小部分,引入了实际的 ASR 错误。
- 这些错误对于研究开放域对话中的多种问题(如实体识别和链接、神经响应生成、下一话语分类等)特别重要和有帮助。
- 从每个原始测试集中挑选了 40 个独特的代表性对话,并让不同种族的英语使用者用自己的音频设备口头阅读对话并录制音频。
- 使用两个自动转录系统(A 和 B)独立转录收集的音频,并将每个对话转录与原始对话文本基于编辑距离进行对齐,然后进行手动重新对齐以获得回合级转录。
- 系统 A 和 B 的转录分别在
"message_asr_A"和"message_asr_B"键中。
引用
如果使用此数据集,请引用以下两篇论文:
Topical-Chat ASR
@inproceedings{gopalakrishnan2020speechrobust, author={Gopalakrishnan, Karthik and Hedayatnia, Behnam and Wang, Longshaokan and Liu, Yang and Hakkani-Tür, Dilek}, title={{Are Neural Open-Domain Dialog Systems Robust to Speech Recognition Errors in the Dialog History? An Empirical Study}}, year={2020}, booktitle={INTERSPEECH} }
Topical-Chat
@inproceedings{gopalakrishnan2019topical, author={Gopalakrishnan, Karthik and Hedayatnia, Behnam and Chen, Qinlang and Gottardi, Anna and Kwatra, Sanjeev and Venkatesh, Anu and Gabriel, Raefer and Hakkani-Tür, Dilek}, title={{Topical-Chat: Towards Knowledge-Grounded Open-Domain Conversations}}, year={2019}, booktitle={INTERSPEECH} }



