varun-v-rao/newsqa
收藏Hugging Face2024-02-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/varun-v-rao/newsqa
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从斯坦福问答数据集(SQuAD)中提取的,主要用于阅读理解任务。其目的是提取与BERT、RoBERTa、OPT和T5模型的上下文长度对齐的实例。预处理步骤包括使用不同的分词器(如BertTokenizer、RoBertaTokenizer、OPTTokenizer和T5Tokenizer)进行分词,并确保每个样本的输入长度在指定范围内。
该数据集是从斯坦福问答数据集(SQuAD)中提取的,主要用于阅读理解任务。其目的是提取与BERT、RoBERTa、OPT和T5模型的上下文长度对齐的实例。预处理步骤包括使用不同的分词器(如BertTokenizer、RoBertaTokenizer、OPTTokenizer和T5Tokenizer)进行分词,并确保每个样本的输入长度在指定范围内。
提供机构:
varun-v-rao
原始信息汇总
数据集概述
数据集信息
-
特征:
context: 类型为字符串。question: 类型为字符串。answers: 结构体,包含以下字段:answer_start: 序列类型,整数64位。text: 序列类型,字符串。
id: 类型为字符串。labels: 列表,包含以下字段:end: 序列类型,整数64位。start: 序列类型,整数64位。
-
分割:
train: 字节数为57635506.94441748,样本数为18142。validation: 字节数为3374870.9449192784,样本数为1070。
-
大小:
- 下载大小: 4666280字节。
- 数据集大小: 61010377.88933676字节。
配置
- 默认配置:
- 数据文件:
train: 路径为data/train-*。validation: 路径为data/validation-*。
- 数据文件:



