Spoken-SQuAD
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Spoken-SQuAD
下载链接
链接失效反馈官方服务:
资源简介:
在 SpokenSQuAD 中,文档是口语形式,输入问题是文本形式,每个问题的答案始终是文档中的一个跨度。以下程序用于从原始 SQuAD 数据集生成语音文档。首先,使用 Google 文字转语音系统在 SQuAD 中生成文章的语音版本。然后 CMU Sphinx 被起诉以生成相应的 ASR 转录。 SQuAD 训练集用于生成 Spoken SQuAD 的训练集,SQuAD 开发集用于生成 Spoken SQuAD 的测试集。如果相关文章的 ASR 转录中不存在问题的答案,则从数据集中删除问答对,因为这些示例对于现阶段的听力理解机器来说太难了。
提供机构:
OpenDataLab
创建时间:
2022-05-23



