davidfant/natural-questions-chunk-29

Name: davidfant/natural-questions-chunk-29
Creator: davidfant
Published: 2023-10-23 00:30:24
License: 暂无描述

Hugging Face2023-10-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/davidfant/natural-questions-chunk-29

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: id dtype: string - name: document struct: - name: html dtype: string - name: title dtype: string - name: tokens sequence: - name: end_byte dtype: int64 - name: is_html dtype: bool - name: start_byte dtype: int64 - name: token dtype: string - name: url dtype: string - name: question struct: - name: text dtype: string - name: tokens sequence: string - name: long_answer_candidates sequence: - name: end_byte dtype: int64 - name: end_token dtype: int64 - name: start_byte dtype: int64 - name: start_token dtype: int64 - name: top_level dtype: bool - name: annotations sequence: - name: id dtype: string - name: long_answer struct: - name: candidate_index dtype: int64 - name: end_byte dtype: int64 - name: end_token dtype: int64 - name: start_byte dtype: int64 - name: start_token dtype: int64 - name: short_answers sequence: - name: end_byte dtype: int64 - name: end_token dtype: int64 - name: start_byte dtype: int64 - name: start_token dtype: int64 - name: text dtype: string - name: yes_no_answer dtype: class_label: names: '0': 'NO' '1': 'YES' splits: - name: train num_bytes: 4683983361 num_examples: 10000 download_size: 1818029192 dataset_size: 4683983361 --- # Dataset Card for "natural-questions-chunk-29" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 数据集信息：特征字段： - 名称：id，数据类型：字符串 - 名称：document，数据类型为结构体，包含以下子字段： - 名称：html，数据类型：字符串（存储网页源码内容） - 名称：title，数据类型：字符串（存储文档标题） - 名称：tokens，数据类型为序列，每个序列元素为Token (Token)相关信息，包含： - 名称：end_byte，数据类型：int64（Token结束位置的字节偏移量） - 名称：is_html，数据类型：布尔值（标识是否为HTML标签Token） - 名称：start_byte，数据类型：int64（Token起始位置的字节偏移量） - 名称：token，数据类型：字符串（Token文本内容） - 名称：url，数据类型：字符串（文档来源网页链接） - 名称：question，数据类型为结构体，包含以下子字段： - 名称：text，数据类型：字符串（问题原文） - 名称：tokens，数据类型为字符串序列（问题的Token列表） - 名称：long_answer_candidates，数据类型为序列，每个序列元素包含： - 名称：end_byte，数据类型：int64 - 名称：end_token，数据类型：int64（候选长答案结束的Token索引） - 名称：start_byte，数据类型：int64 - 名称：start_token，数据类型：int64（候选长答案起始的Token索引） - 名称：top_level，数据类型：布尔值（标识是否为顶层候选答案） - 名称：annotations，数据类型为序列，每个序列元素为一条标注信息，包含： - 名称：id，数据类型：字符串（标注ID） - 名称：long_answer，数据类型为结构体，包含以下子字段： - 名称：candidate_index，数据类型：int64（对应长答案候选的索引） - 名称：end_byte，数据类型：int64 - 名称：end_token，数据类型：int64 - 名称：start_byte，数据类型：int64 - 名称：start_token，数据类型：int64 - 名称：short_answers，数据类型为序列，每个序列元素包含： - 名称：end_byte，数据类型：int64 - 名称：end_token，数据类型：int64 - 名称：start_byte，数据类型：int64 - 名称：start_token，数据类型：int64 - 名称：text，数据类型：字符串（短答案文本内容） - 名称：yes_no_answer，数据类型为类标签类型，标签映射为： '0': 'NO'（否） '1': 'YES'（是）数据集划分： - 名称：train（训练集），字节占用量：4683983361，样本数量：10000 下载大小：1818029192 数据集总大小：4683983361 --- # "natural-questions-chunk-29"数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

davidfant

原始信息汇总

数据集概述

数据集信息

特征:
- id: 数据类型为字符串。
- document: 结构化数据，包含以下字段:
  - html: 数据类型为字符串。
  - title: 数据类型为字符串。
  - tokens: 序列化数据，包含以下字段:
    - end_byte: 数据类型为int64。
    - is_html: 数据类型为布尔值。
    - start_byte: 数据类型为int64。
    - token: 数据类型为字符串。
  - url: 数据类型为字符串。
- question: 结构化数据，包含以下字段:
  - text: 数据类型为字符串。
  - tokens: 序列化数据，数据类型为字符串。
- long_answer_candidates: 序列化数据，包含以下字段:
  - end_byte: 数据类型为int64。
  - end_token: 数据类型为int64。
  - start_byte: 数据类型为int64。
  - start_token: 数据类型为int64。
  - top_level: 数据类型为布尔值。
- annotations: 序列化数据，包含以下字段:
  - id: 数据类型为字符串。
  - long_answer: 结构化数据，包含以下字段:
    - candidate_index: 数据类型为int64。
    - end_byte: 数据类型为int64。
    - end_token: 数据类型为int64。
    - start_byte: 数据类型为int64。
    - start_token: 数据类型为int64。
  - short_answers: 序列化数据，包含以下字段:
    - end_byte: 数据类型为int64。
    - end_token: 数据类型为int64。
    - start_byte: 数据类型为int64。
    - start_token: 数据类型为int64。
    - text: 数据类型为字符串。
  - yes_no_answer: 数据类型为分类标签，包含以下类别:
    - 0: NO
    - 1: YES

数据集分割

train:
- num_bytes: 4683983361 字节
- num_examples: 10000 个样本

数据集大小

download_size: 1818029192 字节
dataset_size: 4683983361 字节

5,000+

优质数据集

54 个

任务类型

进入经典数据集