varun-v-rao/newsqa

Name: varun-v-rao/newsqa
Creator: varun-v-rao
Published: 2024-02-08 07:44:58
License: 暂无描述

Hugging Face2024-02-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/varun-v-rao/newsqa

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从斯坦福问答数据集（SQuAD）中提取的，主要用于阅读理解任务。其目的是提取与BERT、RoBERTa、OPT和T5模型的上下文长度对齐的实例。预处理步骤包括使用不同的分词器（如BertTokenizer、RoBertaTokenizer、OPTTokenizer和T5Tokenizer）进行分词，并确保每个样本的输入长度在指定范围内。

提供机构：

varun-v-rao

原始信息汇总

数据集概述

数据集信息

特征:
- context: 类型为字符串。
- question: 类型为字符串。
- answers: 结构体，包含以下字段:
  - answer_start: 序列类型，整数64位。
  - text: 序列类型，字符串。
- id: 类型为字符串。
- labels: 列表，包含以下字段:
  - end: 序列类型，整数64位。
  - start: 序列类型，整数64位。
分割:
- train: 字节数为57635506.94441748，样本数为18142。
- validation: 字节数为3374870.9449192784，样本数为1070。
大小:
- 下载大小: 4666280字节。
- 数据集大小: 61010377.88933676字节。

配置

默认配置:
- 数据文件:
  - train: 路径为data/train-*。
  - validation: 路径为data/validation-*。

5,000+

优质数据集

54 个

任务类型

进入经典数据集