Spoken-SQuAD
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Spoken-SQuAD
下载链接
链接失效反馈官方服务:
资源简介:
在 SpokenSQuAD 中,文档是口语形式,输入问题是文本形式,每个问题的答案始终是文档中的一个跨度。以下程序用于从原始 SQuAD 数据集生成语音文档。首先,使用 Google 文字转语音系统在 SQuAD 中生成文章的语音版本。然后 CMU Sphinx 被起诉以生成相应的 ASR 转录。 SQuAD 训练集用于生成 Spoken SQuAD 的训练集,SQuAD 开发集用于生成 Spoken SQuAD 的测试集。如果相关文章的 ASR 转录中不存在问题的答案,则从数据集中删除问答对,因为这些示例对于现阶段的听力理解机器来说太难了。
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍

背景与挑战
背景概述
Spoken-SQuAD是一个用于音频文本阅读理解的数据集,通过将SQuAD数据集中的文章转换为语音文档并生成ASR转录来构建。它基于原始SQuAD的训练和开发集划分,并移除了ASR转录中不存在答案的问答对,以降低听力理解任务的难度。
以上内容由遇见数据集搜集并总结生成



