Atipico1/mrqa_squad-tqa-sqa_preprocessed
收藏Hugging Face2024-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Atipico1/mrqa_squad-tqa-sqa_preprocessed
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: subset
dtype: string
- name: context
dtype: string
- name: qid
dtype: string
- name: question
dtype: string
- name: detected_answers
struct:
- name: char_spans
list:
- name: end
sequence: int64
- name: start
sequence: int64
- name: text
sequence: string
- name: token_spans
list:
- name: end
sequence: int64
- name: start
sequence: int64
- name: answers
sequence: string
- name: query_embedding
sequence: float32
splits:
- name: train
num_bytes: 1615608539
num_examples: 253798
download_size: 1390791813
dataset_size: 1615608539
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
Atipico1
原始信息汇总
数据集信息
特征
- subset: 数据子集,数据类型为字符串。
- context: 上下文信息,数据类型为字符串。
- qid: 问题ID,数据类型为字符串。
- question: 问题内容,数据类型为字符串。
- detected_answers: 检测到的答案,包含以下结构:
- char_spans: 字符跨度,包含以下列表:
- end: 结束位置,数据类型为整数序列。
- start: 开始位置,数据类型为整数序列。
- text: 答案文本,数据类型为字符串序列。
- token_spans: 标记跨度,包含以下列表:
- end: 结束位置,数据类型为整数序列。
- start: 开始位置,数据类型为整数序列。
- char_spans: 字符跨度,包含以下列表:
- answers: 答案,数据类型为字符串序列。
- query_embedding: 查询嵌入,数据类型为浮点数序列。
数据分割
- train: 训练集,包含253798个样本,占用1615608539字节。
数据集大小
- 下载大小: 1390791813字节
- 数据集大小: 1615608539字节
配置
- default: 默认配置,包含以下数据文件:
- train: 训练集,路径为
data/train-*。
- train: 训练集,路径为



