davidfant/natural-questions-chunk-17
收藏Hugging Face2023-10-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/davidfant/natural-questions-chunk-17
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为natural-questions-chunk-17,包含多个结构化特征,如文档ID、HTML文档内容、问题文本及其标记、长答案候选和注释。每个特征都详细定义了其数据类型和结构。数据集分为训练集,包含10000个示例,总数据大小为4618797681字节。
该数据集名为natural-questions-chunk-17,包含多个结构化特征,如文档ID、HTML文档内容、问题文本及其标记、长答案候选和注释。每个特征都详细定义了其数据类型和结构。数据集分为训练集,包含10000个示例,总数据大小为4618797681字节。
提供机构:
davidfant
原始信息汇总
数据集概述
特征结构
- id: 数据类型为字符串。
- document: 结构化数据,包含以下字段:
- html: 数据类型为字符串。
- title: 数据类型为字符串。
- tokens: 序列化数据,包含以下字段:
- end_byte: 数据类型为int64。
- is_html: 数据类型为布尔值。
- start_byte: 数据类型为int64。
- token: 数据类型为字符串。
- url: 数据类型为字符串。
- question: 结构化数据,包含以下字段:
- text: 数据类型为字符串。
- tokens: 序列化数据,数据类型为字符串。
- long_answer_candidates: 序列化数据,包含以下字段:
- end_byte: 数据类型为int64。
- end_token: 数据类型为int64。
- start_byte: 数据类型为int64。
- start_token: 数据类型为int64。
- top_level: 数据类型为布尔值。
- annotations: 序列化数据,包含以下字段:
- id: 数据类型为字符串。
- long_answer: 结构化数据,包含以下字段:
- candidate_index: 数据类型为int64。
- end_byte: 数据类型为int64。
- end_token: 数据类型为int64。
- start_byte: 数据类型为int64。
- start_token: 数据类型为int64。
- short_answers: 序列化数据,包含以下字段:
- end_byte: 数据类型为int64。
- end_token: 数据类型为int64。
- start_byte: 数据类型为int64。
- start_token: 数据类型为int64。
- text: 数据类型为字符串。
- yes_no_answer: 数据类型为分类标签,包含以下类别:
- 0: NO
- 1: YES
数据分割
- train: 包含10000个样本,总字节数为4618797681。
数据集大小
- 下载大小: 1793103282字节。
- 数据集大小: 4618797681字节。



