five

yijingwu/HeySQuAD_machine

收藏
Hugging Face2024-02-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yijingwu/HeySQuAD_machine
下载链接
链接失效反馈
官方服务:
资源简介:
HeySQuAD是一个口语问答数据集,包含音频、转录、问题、上下文、答案以及答案的起始和结束位置等特征。数据集分为训练集和验证集,分别包含87596和10567个样本。数据集的下载大小为10389892483字节,总大小为10723386635.824字节。

HeySQuAD是一个口语问答数据集,包含音频、转录、问题、上下文、答案以及答案的起始和结束位置等特征。数据集分为训练集和验证集,分别包含87596和10567个样本。数据集的下载大小为10389892483字节,总大小为10723386635.824字节。
提供机构:
yijingwu
原始信息汇总

数据集概述

许可证

  • 许可证类型:CC BY 4.0

数据集信息

  • 特征

    • audio: 音频数据
    • transcription: 字符串类型,转录文本
    • question: 字符串类型,问题
    • context: 字符串类型,上下文
    • answer: 字符串类型,答案
    • answer_start: 整数类型,答案开始位置
    • answer_end: 整数类型,答案结束位置
  • 数据分割

    • train: 训练集,包含9574532089.4字节,87596个样本
    • validation: 验证集,包含1148854546.424字节,10567个样本
  • 数据大小

    • 下载大小:10389892483字节
    • 数据集大小:10723386635.824字节

配置

  • 默认配置
    • train: 路径为 data/train-*
    • validation: 路径为 data/validation-*

引用

@misc{wu2023heysquad, title={HeySQuAD: A Spoken Question Answering Dataset}, author={Yijing Wu and SaiKrishna Rallabandi and Ravisutha Srinivasamurthy and Parag Pravin Dakle and Alolika Gon and Preethi Raghavan}, year={2023}, eprint={2304.13689}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作