davidfant/natural-questions-chunk-30
收藏Hugging Face2023-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/davidfant/natural-questions-chunk-30
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: document
struct:
- name: html
dtype: string
- name: title
dtype: string
- name: tokens
sequence:
- name: end_byte
dtype: int64
- name: is_html
dtype: bool
- name: start_byte
dtype: int64
- name: token
dtype: string
- name: url
dtype: string
- name: question
struct:
- name: text
dtype: string
- name: tokens
sequence: string
- name: long_answer_candidates
sequence:
- name: end_byte
dtype: int64
- name: end_token
dtype: int64
- name: start_byte
dtype: int64
- name: start_token
dtype: int64
- name: top_level
dtype: bool
- name: annotations
sequence:
- name: id
dtype: string
- name: long_answer
struct:
- name: candidate_index
dtype: int64
- name: end_byte
dtype: int64
- name: end_token
dtype: int64
- name: start_byte
dtype: int64
- name: start_token
dtype: int64
- name: short_answers
sequence:
- name: end_byte
dtype: int64
- name: end_token
dtype: int64
- name: start_byte
dtype: int64
- name: start_token
dtype: int64
- name: text
dtype: string
- name: yes_no_answer
dtype:
class_label:
names:
'0': 'NO'
'1': 'YES'
splits:
- name: train
num_bytes: 3388222961
num_examples: 7373
download_size: 1317590917
dataset_size: 3388222961
---
# Dataset Card for "natural-questions-chunk-30"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
### 数据集信息
#### 特征字段
1. **id**:字符串类型,数据唯一标识
2. **document**:复合结构体,包含以下子字段:
- `html`:字符串类型,网页HTML内容
- `title`:字符串类型,文档标题
- `tokens`:Token序列类型,每个序列元素包含:
- `end_byte`:64位整数,Token结束字节位置
- `is_html`:布尔型,是否为HTML标记
- `start_byte`:64位整数,Token起始字节位置
- `token`:字符串类型,Token文本内容
- `url`:字符串类型,文档来源统一资源定位符(URL)
3. **question**:复合结构体,包含以下子字段:
- `text`:字符串类型,问题文本
- `tokens`:字符串序列类型,问题的Token序列
4. **long_answer_candidates**:长答案候选序列,每个序列元素包含:
- `end_byte`:64位整数,候选答案结束字节位置
- `end_token`:64位整数,候选答案结束Token位置
- `start_byte`:64位整数,候选答案起始字节位置
- `start_token`:64位整数,候选答案起始Token位置
- `top_level`:布尔型,是否为顶级候选段落
5. **annotations**:标注信息序列,每个序列元素包含:
- `id`:字符串类型,标注唯一标识
- **long_answer**:复合结构体,包含以下子字段:
- `candidate_index`:64位整数,对应长答案候选的索引
- `end_byte`:64位整数,长答案结束字节位置
- `end_token`:64位整数,长答案结束Token位置
- `start_byte`:64位整数,长答案起始字节位置
- `start_token`:64位整数,长答案起始Token位置
- **short_answers**:短答案序列,每个序列元素包含:
- `end_byte`:64位整数,短答案结束字节位置
- `end_token`:64位整数,短答案结束Token位置
- `start_byte`:64位整数,短答案起始字节位置
- `start_token`:64位整数,短答案起始Token位置
- `text`:字符串类型,短答案文本内容
- **yes_no_answer**:类别标签类型,标签映射为:`0`对应`NO(否)`,`1`对应`YES(是)`
#### 数据集拆分
- 训练集(train):总字节数3388222961,样本量7373
- 下载大小:1317590917字节
- 数据集总大小:3388222961字节
---
# 「natural-questions-chunk-30」数据集卡片
[需完善更多信息,请参阅](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
davidfant
原始信息汇总
数据集概述
数据集信息
- 特征列表:
- id: 数据类型为字符串。
- document: 结构化数据,包含以下字段:
- html: 数据类型为字符串。
- title: 数据类型为字符串。
- tokens: 序列化数据,包含以下字段:
- end_byte: 数据类型为int64。
- is_html: 数据类型为布尔值。
- start_byte: 数据类型为int64。
- token: 数据类型为字符串。
- url: 数据类型为字符串。
- question: 结构化数据,包含以下字段:
- text: 数据类型为字符串。
- tokens: 序列化数据,数据类型为字符串。
- long_answer_candidates: 序列化数据,包含以下字段:
- end_byte: 数据类型为int64。
- end_token: 数据类型为int64。
- start_byte: 数据类型为int64。
- start_token: 数据类型为int64。
- top_level: 数据类型为布尔值。
- annotations: 序列化数据,包含以下字段:
- id: 数据类型为字符串。
- long_answer: 结构化数据,包含以下字段:
- candidate_index: 数据类型为int64。
- end_byte: 数据类型为int64。
- end_token: 数据类型为int64。
- start_byte: 数据类型为int64。
- start_token: 数据类型为int64。
- short_answers: 序列化数据,包含以下字段:
- end_byte: 数据类型为int64。
- end_token: 数据类型为int64。
- start_byte: 数据类型为int64。
- start_token: 数据类型为int64。
- text: 数据类型为字符串。
- yes_no_answer: 数据类型为分类标签,包含以下类别:
- 0: NO
- 1: YES
数据集划分
- train:
- num_bytes: 3388222961字节
- num_examples: 7373个样本
数据集大小
- download_size: 1317590917字节
- dataset_size: 3388222961字节



