five

WillHeld/HeySQuAD_distill

收藏
Hugging Face2024-04-25 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/WillHeld/HeySQuAD_distill
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含音频、转录文本、问题、上下文、答案、是否不可能、ID、可能的答案和响应等特征。数据集分为训练集和验证集,训练集进一步细分为多个子集。每个子集都有相应的字节大小和示例数量。

该数据集包含音频、转录文本、问题、上下文、答案、是否不可能、ID、可能的答案和响应等特征。数据集分为训练集和验证集,训练集进一步细分为多个子集。每个子集都有相应的字节大小和示例数量。
提供机构:
WillHeld
原始信息汇总

数据集概述

数据集特征

  • audio: 音频数据
  • transcription: 字符串类型
  • question: 字符串类型
  • context: 字符串类型
  • answers: 列表类型,包含:
    • answer_start: 整数类型
    • text: 字符串类型
  • is_impossible: 布尔类型
  • id: 字符串类型
  • plausible_answers: 列表类型,包含:
    • answer_start: 整数类型
    • text: 字符串类型
  • response: 字符串类型

数据集分割

  • train: 71988个样本,总大小为17924608529.92字节
  • validation: 4158个样本,总大小为839605048.292字节
  • train.0train.13: 每个分割包含5142个样本,各自的总大小分别为:
    • train.0: 1078722883.78字节
    • train.1: 1035408182.834字节
    • train.2: 1008141032.624字节
    • train.3: 1058009038.854字节
    • train.4: 1033585673.418字节
    • train.5: 975758843.51字节
    • train.6: 956477556.048字节
    • train.7: 1031551466.512字节
    • train.8: 1479551723.146字节
    • train.9: 1338549202.696字节
    • train.10: 1617167244.766字节
    • train.11: 1506405055.962字节
    • train.12: 1821829618.678字节
    • train.13: 1982815638.718字节

数据集大小

  • download_size: 42376206586字节
  • dataset_size: 36688186739.757996字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作