five

Spoken-SQuAD

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Spoken-SQuAD
下载链接
链接失效反馈
官方服务:
资源简介:
在 SpokenSQuAD 中,文档是口语形式,输入问题是文本形式,每个问题的答案始终是文档中的一个跨度。以下程序用于从原始 SQuAD 数据集生成语音文档。首先,使用 Google 文字转语音系统在 SQuAD 中生成文章的语音版本。然后 CMU Sphinx 被起诉以生成相应的 ASR 转录。 SQuAD 训练集用于生成 Spoken SQuAD 的训练集,SQuAD 开发集用于生成 Spoken SQuAD 的测试集。如果相关文章的 ASR 转录中不存在问题的答案,则从数据集中删除问答对,因为这些示例对于现阶段的听力理解机器来说太难了。
提供机构:
OpenDataLab
创建时间:
2022-05-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作