Conversational-Reasoning/Topical-ChatASR

Name: Conversational-Reasoning/Topical-ChatASR
Creator: Conversational-Reasoning
Published: 2023-12-22 16:54:16
License: 暂无描述

Hugging Face2023-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Conversational-Reasoning/Topical-ChatASR

下载链接

链接失效反馈

官方服务：

资源简介：

Topical-Chat ASR数据集是对Topical-Chat数据集的增强版本，包含了非平凡的合成和实际的ASR假设。合成数据部分通过ASR错误模拟器方法在四个不同的目标词错误率（WER）下生成，而实际数据部分则通过人类语音录制和两个自动化转录系统生成。该数据集旨在研究开放域对话系统中语音识别错误的鲁棒性，特别是在实体识别和链接、神经响应生成、下一话语分类等问题上的应用。

提供机构：

Conversational-Reasoning

原始信息汇总

Topical-Chat ASR 数据集概述

数据集基本信息

许可证: cdla-sharing-1.0
任务类别:
- 对话
- 文本分类
- 特征提取
语言: 英语
名称: Topical-Chat
规模: 100K<n<1M

数据集描述

Topical-Chat ASR 是 Topical-Chat 数据集的一个增强版本，包含了非平凡的合成和实际的自动语音识别（ASR）假设。

合成数据

路径: /TopicalChatASR/synthetic
描述:
- 每个原始 Topical-Chat 数据集文件都构建了四个不同目标词错误率（WER）的非平凡合成 ASR 假设。
- 使用基于 n-gram 混淆矩阵的 ASR 错误模拟方法，并在内部用户研究的转录 ASR 输出上训练模拟器。
- 目标 WER 分别为 0.1, 0.15, 0.2 和 0.3。
- 每个目标 WER 对应的文件数量：
  1. 1 个训练文件
  2. 5 个 valid_freq 文件，5 个 valid_rare 文件
  3. 5 个 test_freq 文件，5 个 test_rare 文件
- 每个对话中的每个回合，"message" 键包含原始文本消息，"message_sim_asr" 键包含相应的错误模拟消息。

实际数据

描述:
- 对于原始 Topical-Chat 测试集的一小部分，引入了实际的 ASR 错误。
- 这些错误对于研究开放域对话中的多种问题（如实体识别和链接、神经响应生成、下一话语分类等）特别重要和有帮助。
- 从每个原始测试集中挑选了 40 个独特的代表性对话，并让不同种族的英语使用者用自己的音频设备口头阅读对话并录制音频。
- 使用两个自动转录系统（A 和 B）独立转录收集的音频，并将每个对话转录与原始对话文本基于编辑距离进行对齐，然后进行手动重新对齐以获得回合级转录。
- 系统 A 和 B 的转录分别在 "message_asr_A" 和 "message_asr_B" 键中。

引用

如果使用此数据集，请引用以下两篇论文：

Topical-Chat ASR

@inproceedings{gopalakrishnan2020speechrobust, author={Gopalakrishnan, Karthik and Hedayatnia, Behnam and Wang, Longshaokan and Liu, Yang and Hakkani-Tür, Dilek}, title={{Are Neural Open-Domain Dialog Systems Robust to Speech Recognition Errors in the Dialog History? An Empirical Study}}, year={2020}, booktitle={INTERSPEECH} }

Topical-Chat

@inproceedings{gopalakrishnan2019topical, author={Gopalakrishnan, Karthik and Hedayatnia, Behnam and Chen, Qinlang and Gottardi, Anna and Kwatra, Sanjeev and Venkatesh, Anu and Gabriel, Raefer and Hakkani-Tür, Dilek}, title={{Topical-Chat: Towards Knowledge-Grounded Open-Domain Conversations}}, year={2019}, booktitle={INTERSPEECH} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集