five

alinet/spoken_squad

收藏
Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alinet/spoken_squad
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: train path: "train.json" - split: validation path: "test.json" - config_name: WER44 data_files: - split: test path: "test_WER44.json" - config_name: WER54 data_files: - split: test path: "test_WER54.json" size_categories: - 10K<n<100K license: unknown task_categories: - question-answering language: - en pretty_name: Spoken-SQuAD --- # Dataset Card for Spoken-SQuAD ## Dataset Description - **Repository:** [https://github.com/chiahsuan156/Spoken-SQuAD](https://github.com/chiahsuan156/Spoken-SQuAD) - **Paper:** [https://arxiv.org/abs/1804.00320](https://arxiv.org/abs/1804.00320) ## Citation ```bibtex @article{lee2018spoken, title={Spoken SQuAD: A Study of Mitigating the Impact of Speech Recognition Errors on Listening Comprehension}, author={Lee, Chia-Hsuan and Wu, Szu-Lin and Liu, Chi-Liang and Lee, Hung-yi}, journal={Proc. Interspeech 2018}, pages={3459--3463}, year={2018} } ```

配置项: - 配置名称:default(默认配置) 数据文件: - 数据集拆分:训练集,文件路径:"train.json" - 数据集拆分:验证集,文件路径:"test.json" - 配置名称:WER44(词错误率44,Word Error Rate 44) 数据文件: - 数据集拆分:测试集,文件路径:"test_WER44.json" - 配置名称:WER54(词错误率54,Word Error Rate 54) 数据文件: - 数据集拆分:测试集,文件路径:"test_WER54.json" 样本量范畴:10000 < 样本数量 < 100000 许可协议:未知 任务范畴:问答任务(question-answering) 语言:英语(en) 展示名称:口语化SQuAD(Spoken-SQuAD) # Spoken-SQuAD数据集卡片 ## 数据集描述 - **仓库地址:** [https://github.com/chiahsuan156/Spoken-SQuAD](https://github.com/chiahsuan156/Spoken-SQuAD) - **论文地址:** [https://arxiv.org/abs/1804.00320](https://arxiv.org/abs/1804.00320) ## 引用格式 bibtex @article{lee2018spoken, title={口语化SQuAD:缓解语音识别错误对听力理解影响的研究}, author={Lee, Chia-Hsuan and Wu, Szu-Lin and Liu, Chi-Liang and Lee, Hung-yi}, journal={Proc. Interspeech 2018(2018年国际语音通信大会论文集)}, pages={3459--3463}, year={2018} }
提供机构:
alinet
原始信息汇总

数据集概述

数据集描述

  • 数据集名称: Spoken-SQuAD
  • 语言: 英语
  • 任务类别: 问答
  • 数据规模: 10K<n<100K
  • 许可证: 未知

数据配置

  • 默认配置:
    • 训练集: train.json
    • 验证集: test.json
  • WER44配置:
    • 测试集: test_WER44.json
  • WER54配置:
    • 测试集: test_WER54.json
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个用于问答任务的英语文本数据集,规模在10K到100K之间,主要研究语音识别错误对听力理解的影响。数据集包含53,164行数据,与2018年发表的论文相关联。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作