dmrau/combined_qa
收藏Hugging Face2024-06-13 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/dmrau/combined_qa
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了多个问答数据集的组合,包括nq open、msmarco 2.1、adverserial qa、hotpotqa、wikiqa、sciq、asqa、triviaqa、wikiqa、freebase_qa和squad_v1.1。在预处理阶段,移除了所有tokenized长度超过128的查询以及所有tokenized标签超过64的查询,并且使用了gamma-2b tokenizer进行tokenized处理。同时,移除了msmarco数据集中标签为No Answer Present的查询。
该数据集包含了多个问答数据集的组合,包括nq open、msmarco 2.1、adverserial qa、hotpotqa、wikiqa、sciq、asqa、triviaqa、wikiqa、freebase_qa和squad_v1.1。在预处理阶段,移除了所有tokenized长度超过128的查询以及所有tokenized标签超过64的查询,并且使用了gamma-2b tokenizer进行tokenized处理。同时,移除了msmarco数据集中标签为No Answer Present的查询。
提供机构:
dmrau
原始信息汇总
数据集概述
数据集配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
数据集信息
- 特征:
- 名称: id
- 数据类型: string
- 名称: content
- 数据类型: string
- 名称: label
- 序列类型: string
- 名称: id
- 分割:
- 名称: train
- 字节数: 84339725.58998138
- 样本数: 453023
- 名称: train
- 下载大小: 56580316
- 数据集大小: 84339725.58998138
数据集组成
- 包含的QA数据集:
- nq open
- msmarco 2.1 (前100k)
- adverserial qa
- hotpotqa
- wikiqa
- sciq
- asqa
- triviaqa
- wikiqa
- freebase_qa
- squad_v1.1
数据预处理
- 移除了所有tokenized长度大于128的查询。
- 移除了所有tokenized标签长度大于64的查询。
- 使用gamma-2b tokenizer进行tokenized。
- 移除了msmarco中所有标签为"No Answer Present."的查询。



