five

yijingwu/HeySQuAD_human

收藏
Hugging Face2024-02-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yijingwu/HeySQuAD_human
下载链接
链接失效反馈
官方服务:
资源简介:
HeySQuAD是一个语音问答数据集,包含音频、转录文本、问题、上下文、答案、是否不可能、ID和可能的答案等特征。数据集分为训练集和验证集,训练集包含71990个示例,验证集包含4158个示例。该数据集的总下载大小为14616752976字节,总数据集大小为16414964749.935999字节。

HeySQuAD是一个语音问答数据集,包含音频、转录文本、问题、上下文、答案、是否不可能、ID和可能的答案等特征。数据集分为训练集和验证集,训练集包含71990个示例,验证集包含4158个示例。该数据集的总下载大小为14616752976字节,总数据集大小为16414964749.935999字节。
提供机构:
yijingwu
原始信息汇总

数据集概述

许可证

  • CC BY 4.0

数据集信息

特征

  • audio: 音频数据
  • transcription: 字符串,转录文本
  • question: 字符串,问题
  • context: 字符串,上下文
  • answers: 列表,包含以下子特征:
    • answer_start: 整数,答案开始位置
    • text: 字符串,答案文本
  • is_impossible: 布尔值,是否不可能回答
  • id: 字符串,唯一标识符
  • plausible_answers: 列表,包含以下子特征:
    • answer_start: 整数,可能答案开始位置
    • text: 字符串,可能答案文本

数据分割

  • train: 训练集,包含71990个样本,大小为15547759456.9字节
  • validation: 验证集,包含4158个样本,大小为867205293.036字节

数据集大小

  • 下载大小: 14616752976字节
  • 数据集总大小: 16414964749.935999字节

配置

  • default: 默认配置,包含以下数据文件:
    • train: 路径为data/train-*
    • validation: 路径为data/validation-*
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
HeySQuAD_human是一个语音问答数据集,包含约76,148条数据,结合音频和文本模态,基于SQuAD格式构建。该数据集用于支持语音问答任务的研究,涉及语音转录、问题理解和答案提取,适用于训练和评估多模态AI模型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作