NomaDamas/qasper

Name: NomaDamas/qasper
Creator: NomaDamas
Published: 2023-10-21 04:02:27
License: 暂无描述

Hugging Face2023-10-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/NomaDamas/qasper

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-4.0 dataset_info: features: - name: id dtype: string - name: title dtype: string - name: abstract dtype: string - name: full_text struct: - name: paragraphs sequence: sequence: string - name: section_name sequence: string - name: qas struct: - name: answers list: - name: annotation_id sequence: string - name: answer list: - name: evidence sequence: string - name: extractive_spans sequence: string - name: free_form_answer dtype: string - name: highlighted_evidence sequence: string - name: unanswerable dtype: bool - name: yes_no dtype: bool - name: worker_id sequence: string - name: nlp_background sequence: string - name: paper_read sequence: string - name: question sequence: string - name: question_id sequence: string - name: question_writer sequence: string - name: search_query sequence: string - name: topic_background sequence: string - name: figures_and_tables struct: - name: caption sequence: string - name: file sequence: string - name: question sequence: string - name: retrieval_gt sequence: sequence: string - name: answer_gt sequence: string - name: __index_level_0__ dtype: int64 splits: - name: train num_bytes: 33747492 num_examples: 946 download_size: 16245561 dataset_size: 33747492 configs: - config_name: default data_files: - split: train path: data/train-* ---

许可证：CC BY 4.0 数据集元信息：特征： 1. 字段名：id，数据类型：字符串 2. 字段名：title，数据类型：字符串 3. 字段名：abstract，数据类型：字符串 4. 字段名：full_text，结构体类型，包含子特征： - 子特征名：paragraphs，嵌套字符串序列 - 子特征名：section_name，字符串序列 5. 字段名：qas，结构体类型，包含子特征： - 子特征名：answers，列表类型，列表项包含： * 注释ID（annotation_id）：字符串序列 * 答案列表（answer），每个列表项包含： · 证据（evidence）：字符串序列 · 抽取式跨度（extractive_spans）：字符串序列 · 自由格式答案（free_form_answer）：字符串类型 · 高亮证据（highlighted_evidence）：字符串序列 · 不可回答标识（unanswerable）：布尔类型 · 是非问题标识（yes_no）：布尔类型 * 标注者ID（worker_id）：字符串序列 - 子特征名：nlp_background，字符串序列 - 子特征名：paper_read，字符串序列 - 子特征名：question，字符串序列 - 子特征名：question_id，字符串序列 - 子特征名：question_writer，字符串序列 - 子特征名：search_query，字符串序列 - 子特征名：topic_background，字符串序列 6. 字段名：figures_and_tables，结构体类型，包含子特征： - 子特征名：caption，字符串序列 - 子特征名：file，字符串序列 7. 字段名：question，字符串序列 8. 字段名：retrieval_gt，嵌套字符串序列 9. 字段名：answer_gt，字符串序列 10. 字段名：__index_level_0__，数据类型：64位整型数据集划分： - 划分名称：train（训练集），占用字节数：33747492，样本数量：946 下载大小：16245561字节数据集总大小：33747492字节配置项： - 配置名称：default（默认配置），数据文件： · 对应划分：train（训练集），文件路径：data/train-*

提供机构：

NomaDamas

原始信息汇总

数据集概述

许可证

该数据集遵循 CC BY 4.0 许可证。

数据集信息

特征描述：
- id：字符串类型。
- title：字符串类型。
- abstract：字符串类型。
- full_text：结构体类型，包含以下字段：
  - paragraphs：字符串序列。
  - section_name：字符串序列。
- qas：结构体类型，包含以下字段：
  - answers：列表类型，包含以下字段：
    - annotation_id：字符串序列。
    - answer：列表类型，包含以下字段：
      - evidence：字符串序列。
      - extractive_spans：字符串序列。
      - free_form_answer：字符串类型。
      - highlighted_evidence：字符串序列。
      - unanswerable：布尔类型。
      - yes_no：布尔类型。
    - worker_id：字符串序列。
  - nlp_background：字符串序列。
  - paper_read：字符串序列。
  - question：字符串序列。
  - question_id：字符串序列。
  - question_writer：字符串序列。
  - search_query：字符串序列。
  - topic_background：字符串序列。
- figures_and_tables：结构体类型，包含以下字段：
  - caption：字符串序列。
  - file：字符串序列。
- question：字符串序列。
- retrieval_gt：字符串序列的序列。
- answer_gt：字符串序列。
- __index_level_0__：64位整数类型。

数据分割

训练集：
- 字节数：33747492
- 样本数：946

数据集大小

下载大小：16245561 字节
数据集大小：33747492 字节

配置

默认配置：
- 数据文件路径：data/train-*

搜集汇总

数据集介绍

构建方式

在科学文献问答领域，QASPER数据集的构建体现了严谨的学术规范。其核心源于对大量学术论文的深度解析，通过系统化的标注流程，将全文内容、图表信息与结构化问答对有机整合。构建过程中，专业人员依据论文的章节划分与语义逻辑，对文本段落进行精细标注，同时关联对应的图表数据，确保信息源的完整性与一致性。问答对的生成则基于论文内容，由标注者提出具有研究背景的问题并提供证据支持的多类型答案，形成了层次分明的知识体系。

特点

该数据集在科学文献理解任务中展现出鲜明的多维特征。其不仅包含论文的标题、摘要与全文段落，还整合了图表说明，提供了跨模态的学术信息。问答部分设计尤为精巧，每个问题均关联研究背景与检索查询，答案则涵盖抽取式片段、自由文本形式、是否判断及不可回答标识，并附有具体的证据定位，这种结构支持对复杂科学推理的深度建模。数据集整体呈现高度的结构化与语义关联性，为机器阅读理解与知识检索提供了丰富的细粒度监督信号。

使用方法

对于研究者而言，QASPER数据集的使用需遵循其内在的学术逻辑。典型应用场景包括训练与评估科学文献的自动问答系统、证据检索模型以及阅读理解模型。使用者可依据论文ID索引，获取完整的文本、图表及对应的问答对，利用问题中的背景信息与检索查询引导模型定位相关证据，并通过对比多种答案类型（如提取式答案、自由形式答案或是否判断）来评估模型的综合理解能力。数据集中提供的证据序列与答案真值可直接用于监督学习或作为基准测试的参考标准。

背景与挑战

背景概述

在自然语言处理领域，科学文献的问答系统一直是研究热点，旨在提升机器对学术文本的理解与推理能力。QASPER数据集由Allen Institute for AI等机构于2021年创建，专注于解决科学论文的问答任务，其核心研究问题在于如何从复杂的长文档中提取精确答案，并支持多类型问题，如提取式、自由形式及是否类回答。该数据集基于计算机科学领域的论文构建，通过整合标题、摘要、全文及图表信息，推动了文档级问答模型的发展，对学术信息检索和知识挖掘产生了深远影响。

当前挑战

QASPER数据集面临的挑战主要体现在两个方面：在领域问题层面，科学文献通常包含专业术语、复杂结构和隐含推理，这要求模型具备深层次的语义理解和跨段落整合能力，以应对提取式与生成式答案的混合需求；在构建过程中，挑战源于数据标注的复杂性，例如需要专家标注者理解论文内容并生成高质量问题与答案，同时确保证据链的准确性和一致性，这增加了数据收集与验证的难度。

常用场景

经典使用场景

在自然语言处理领域，QASPER数据集为问答系统研究提供了重要支撑，其经典使用场景聚焦于针对学术论文的问答任务。该数据集通过构建基于科学文献全文的问答对，使研究者能够训练和评估模型在复杂文档中的信息检索与答案生成能力。模型需要理解论文的抽象、正文及图表内容，以回答涉及方法、结果或背景的多样化问题，这推动了文档级问答技术的进步，尤其在处理长文本和多模态信息方面展现出独特价值。

衍生相关工作

围绕QASPER数据集，已衍生出多项经典研究工作，主要集中在文档级问答与证据检索模型的创新上。例如，研究者利用该数据集开发了基于Transformer的端到端问答系统，整合了段落检索与答案生成模块。同时，一些工作探索了多任务学习框架，将问答与文本摘要、图表理解相结合，以提升对科学文献的全面理解。这些衍生研究不仅推动了数据集本身的完善，还为自然语言处理领域的长文档处理技术提供了重要参考。

数据集最近研究