alinet/spoken_squad
收藏Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alinet/spoken_squad
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: "train.json"
- split: validation
path: "test.json"
- config_name: WER44
data_files:
- split: test
path: "test_WER44.json"
- config_name: WER54
data_files:
- split: test
path: "test_WER54.json"
size_categories:
- 10K<n<100K
license: unknown
task_categories:
- question-answering
language:
- en
pretty_name: Spoken-SQuAD
---
# Dataset Card for Spoken-SQuAD
## Dataset Description
- **Repository:** [https://github.com/chiahsuan156/Spoken-SQuAD](https://github.com/chiahsuan156/Spoken-SQuAD)
- **Paper:** [https://arxiv.org/abs/1804.00320](https://arxiv.org/abs/1804.00320)
## Citation
```bibtex
@article{lee2018spoken,
title={Spoken SQuAD: A Study of Mitigating the Impact of Speech Recognition Errors on Listening Comprehension},
author={Lee, Chia-Hsuan and Wu, Szu-Lin and Liu, Chi-Liang and Lee, Hung-yi},
journal={Proc. Interspeech 2018},
pages={3459--3463},
year={2018}
}
```
配置项:
- 配置名称:default(默认配置)
数据文件:
- 数据集拆分:训练集,文件路径:"train.json"
- 数据集拆分:验证集,文件路径:"test.json"
- 配置名称:WER44(词错误率44,Word Error Rate 44)
数据文件:
- 数据集拆分:测试集,文件路径:"test_WER44.json"
- 配置名称:WER54(词错误率54,Word Error Rate 54)
数据文件:
- 数据集拆分:测试集,文件路径:"test_WER54.json"
样本量范畴:10000 < 样本数量 < 100000
许可协议:未知
任务范畴:问答任务(question-answering)
语言:英语(en)
展示名称:口语化SQuAD(Spoken-SQuAD)
# Spoken-SQuAD数据集卡片
## 数据集描述
- **仓库地址:** [https://github.com/chiahsuan156/Spoken-SQuAD](https://github.com/chiahsuan156/Spoken-SQuAD)
- **论文地址:** [https://arxiv.org/abs/1804.00320](https://arxiv.org/abs/1804.00320)
## 引用格式
bibtex
@article{lee2018spoken,
title={口语化SQuAD:缓解语音识别错误对听力理解影响的研究},
author={Lee, Chia-Hsuan and Wu, Szu-Lin and Liu, Chi-Liang and Lee, Hung-yi},
journal={Proc. Interspeech 2018(2018年国际语音通信大会论文集)},
pages={3459--3463},
year={2018}
}
提供机构:
alinet
原始信息汇总
数据集概述
数据集描述
- 数据集名称: Spoken-SQuAD
- 语言: 英语
- 任务类别: 问答
- 数据规模: 10K<n<100K
- 许可证: 未知
数据配置
- 默认配置:
- 训练集:
train.json - 验证集:
test.json
- 训练集:
- WER44配置:
- 测试集:
test_WER44.json
- 测试集:
- WER54配置:
- 测试集:
test_WER54.json
- 测试集:
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于问答任务的英语文本数据集,规模在10K到100K之间,主要研究语音识别错误对听力理解的影响。数据集包含53,164行数据,与2018年发表的论文相关联。
以上内容由遇见数据集搜集并总结生成



