yijingwu/HeySQuAD_human
收藏Hugging Face2024-02-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yijingwu/HeySQuAD_human
下载链接
链接失效反馈官方服务:
资源简介:
HeySQuAD是一个语音问答数据集,包含音频、转录文本、问题、上下文、答案、是否不可能、ID和可能的答案等特征。数据集分为训练集和验证集,训练集包含71990个示例,验证集包含4158个示例。该数据集的总下载大小为14616752976字节,总数据集大小为16414964749.935999字节。
HeySQuAD是一个语音问答数据集,包含音频、转录文本、问题、上下文、答案、是否不可能、ID和可能的答案等特征。数据集分为训练集和验证集,训练集包含71990个示例,验证集包含4158个示例。该数据集的总下载大小为14616752976字节,总数据集大小为16414964749.935999字节。
提供机构:
yijingwu
原始信息汇总
数据集概述
许可证
- CC BY 4.0
数据集信息
特征
- audio: 音频数据
- transcription: 字符串,转录文本
- question: 字符串,问题
- context: 字符串,上下文
- answers: 列表,包含以下子特征:
- answer_start: 整数,答案开始位置
- text: 字符串,答案文本
- is_impossible: 布尔值,是否不可能回答
- id: 字符串,唯一标识符
- plausible_answers: 列表,包含以下子特征:
- answer_start: 整数,可能答案开始位置
- text: 字符串,可能答案文本
数据分割
- train: 训练集,包含71990个样本,大小为15547759456.9字节
- validation: 验证集,包含4158个样本,大小为867205293.036字节
数据集大小
- 下载大小: 14616752976字节
- 数据集总大小: 16414964749.935999字节
配置
- default: 默认配置,包含以下数据文件:
- train: 路径为
data/train-* - validation: 路径为
data/validation-*
- train: 路径为
搜集汇总
数据集介绍

背景与挑战
背景概述
HeySQuAD_human是一个语音问答数据集,包含约76,148条数据,结合音频和文本模态,基于SQuAD格式构建。该数据集用于支持语音问答任务的研究,涉及语音转录、问题理解和答案提取,适用于训练和评估多模态AI模型。
以上内容由遇见数据集搜集并总结生成



