yijingwu/HeySQuAD_machine
收藏Hugging Face2024-02-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yijingwu/HeySQuAD_machine
下载链接
链接失效反馈官方服务:
资源简介:
HeySQuAD是一个口语问答数据集,包含音频、转录、问题、上下文、答案以及答案的起始和结束位置等特征。数据集分为训练集和验证集,分别包含87596和10567个样本。数据集的下载大小为10389892483字节,总大小为10723386635.824字节。
HeySQuAD是一个口语问答数据集,包含音频、转录、问题、上下文、答案以及答案的起始和结束位置等特征。数据集分为训练集和验证集,分别包含87596和10567个样本。数据集的下载大小为10389892483字节,总大小为10723386635.824字节。
提供机构:
yijingwu
原始信息汇总
数据集概述
许可证
- 许可证类型:CC BY 4.0
数据集信息
-
特征:
audio: 音频数据transcription: 字符串类型,转录文本question: 字符串类型,问题context: 字符串类型,上下文answer: 字符串类型,答案answer_start: 整数类型,答案开始位置answer_end: 整数类型,答案结束位置
-
数据分割:
train: 训练集,包含9574532089.4字节,87596个样本validation: 验证集,包含1148854546.424字节,10567个样本
-
数据大小:
- 下载大小:10389892483字节
- 数据集大小:10723386635.824字节
配置
- 默认配置:
train: 路径为data/train-*validation: 路径为data/validation-*
引用
@misc{wu2023heysquad, title={HeySQuAD: A Spoken Question Answering Dataset}, author={Yijing Wu and SaiKrishna Rallabandi and Ravisutha Srinivasamurthy and Parag Pravin Dakle and Alolika Gon and Preethi Raghavan}, year={2023}, eprint={2304.13689}, archivePrefix={arXiv}, primaryClass={cs.CL} }



