WillHeld/HeySQuAD_distill
收藏Hugging Face2024-04-25 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/WillHeld/HeySQuAD_distill
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含音频、转录文本、问题、上下文、答案、是否不可能、ID、可能的答案和响应等特征。数据集分为训练集和验证集,训练集进一步细分为多个子集。每个子集都有相应的字节大小和示例数量。
该数据集包含音频、转录文本、问题、上下文、答案、是否不可能、ID、可能的答案和响应等特征。数据集分为训练集和验证集,训练集进一步细分为多个子集。每个子集都有相应的字节大小和示例数量。
提供机构:
WillHeld
原始信息汇总
数据集概述
数据集特征
- audio: 音频数据
- transcription: 字符串类型
- question: 字符串类型
- context: 字符串类型
- answers: 列表类型,包含:
- answer_start: 整数类型
- text: 字符串类型
- is_impossible: 布尔类型
- id: 字符串类型
- plausible_answers: 列表类型,包含:
- answer_start: 整数类型
- text: 字符串类型
- response: 字符串类型
数据集分割
- train: 71988个样本,总大小为17924608529.92字节
- validation: 4158个样本,总大小为839605048.292字节
- train.0 至 train.13: 每个分割包含5142个样本,各自的总大小分别为:
- train.0: 1078722883.78字节
- train.1: 1035408182.834字节
- train.2: 1008141032.624字节
- train.3: 1058009038.854字节
- train.4: 1033585673.418字节
- train.5: 975758843.51字节
- train.6: 956477556.048字节
- train.7: 1031551466.512字节
- train.8: 1479551723.146字节
- train.9: 1338549202.696字节
- train.10: 1617167244.766字节
- train.11: 1506405055.962字节
- train.12: 1821829618.678字节
- train.13: 1982815638.718字节
数据集大小
- download_size: 42376206586字节
- dataset_size: 36688186739.757996字节



