NomaDamas/qasper
收藏Hugging Face2023-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NomaDamas/qasper
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
dataset_info:
features:
- name: id
dtype: string
- name: title
dtype: string
- name: abstract
dtype: string
- name: full_text
struct:
- name: paragraphs
sequence:
sequence: string
- name: section_name
sequence: string
- name: qas
struct:
- name: answers
list:
- name: annotation_id
sequence: string
- name: answer
list:
- name: evidence
sequence: string
- name: extractive_spans
sequence: string
- name: free_form_answer
dtype: string
- name: highlighted_evidence
sequence: string
- name: unanswerable
dtype: bool
- name: yes_no
dtype: bool
- name: worker_id
sequence: string
- name: nlp_background
sequence: string
- name: paper_read
sequence: string
- name: question
sequence: string
- name: question_id
sequence: string
- name: question_writer
sequence: string
- name: search_query
sequence: string
- name: topic_background
sequence: string
- name: figures_and_tables
struct:
- name: caption
sequence: string
- name: file
sequence: string
- name: question
sequence: string
- name: retrieval_gt
sequence:
sequence: string
- name: answer_gt
sequence: string
- name: __index_level_0__
dtype: int64
splits:
- name: train
num_bytes: 33747492
num_examples: 946
download_size: 16245561
dataset_size: 33747492
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
许可证:CC BY 4.0
数据集元信息:
特征:
1. 字段名:id,数据类型:字符串
2. 字段名:title,数据类型:字符串
3. 字段名:abstract,数据类型:字符串
4. 字段名:full_text,结构体类型,包含子特征:
- 子特征名:paragraphs,嵌套字符串序列
- 子特征名:section_name,字符串序列
5. 字段名:qas,结构体类型,包含子特征:
- 子特征名:answers,列表类型,列表项包含:
* 注释ID(annotation_id):字符串序列
* 答案列表(answer),每个列表项包含:
· 证据(evidence):字符串序列
· 抽取式跨度(extractive_spans):字符串序列
· 自由格式答案(free_form_answer):字符串类型
· 高亮证据(highlighted_evidence):字符串序列
· 不可回答标识(unanswerable):布尔类型
· 是非问题标识(yes_no):布尔类型
* 标注者ID(worker_id):字符串序列
- 子特征名:nlp_background,字符串序列
- 子特征名:paper_read,字符串序列
- 子特征名:question,字符串序列
- 子特征名:question_id,字符串序列
- 子特征名:question_writer,字符串序列
- 子特征名:search_query,字符串序列
- 子特征名:topic_background,字符串序列
6. 字段名:figures_and_tables,结构体类型,包含子特征:
- 子特征名:caption,字符串序列
- 子特征名:file,字符串序列
7. 字段名:question,字符串序列
8. 字段名:retrieval_gt,嵌套字符串序列
9. 字段名:answer_gt,字符串序列
10. 字段名:__index_level_0__,数据类型:64位整型
数据集划分:
- 划分名称:train(训练集),占用字节数:33747492,样本数量:946
下载大小:16245561字节
数据集总大小:33747492字节
配置项:
- 配置名称:default(默认配置),数据文件:
· 对应划分:train(训练集),文件路径:data/train-*
提供机构:
NomaDamas
原始信息汇总
数据集概述
许可证
- 该数据集遵循 CC BY 4.0 许可证。
数据集信息
- 特征描述:
id:字符串类型。title:字符串类型。abstract:字符串类型。full_text:结构体类型,包含以下字段:paragraphs:字符串序列。section_name:字符串序列。
qas:结构体类型,包含以下字段:answers:列表类型,包含以下字段:annotation_id:字符串序列。answer:列表类型,包含以下字段:evidence:字符串序列。extractive_spans:字符串序列。free_form_answer:字符串类型。highlighted_evidence:字符串序列。unanswerable:布尔类型。yes_no:布尔类型。
worker_id:字符串序列。
nlp_background:字符串序列。paper_read:字符串序列。question:字符串序列。question_id:字符串序列。question_writer:字符串序列。search_query:字符串序列。topic_background:字符串序列。
figures_and_tables:结构体类型,包含以下字段:caption:字符串序列。file:字符串序列。
question:字符串序列。retrieval_gt:字符串序列的序列。answer_gt:字符串序列。__index_level_0__:64位整数类型。
数据分割
- 训练集:
- 字节数:33747492
- 样本数:946
数据集大小
- 下载大小:16245561 字节
- 数据集大小:33747492 字节
配置
- 默认配置:
- 数据文件路径:
data/train-*
- 数据文件路径:
搜集汇总
数据集介绍

构建方式
在科学文献问答领域,QASPER数据集的构建体现了严谨的学术规范。其核心源于对大量学术论文的深度解析,通过系统化的标注流程,将全文内容、图表信息与结构化问答对有机整合。构建过程中,专业人员依据论文的章节划分与语义逻辑,对文本段落进行精细标注,同时关联对应的图表数据,确保信息源的完整性与一致性。问答对的生成则基于论文内容,由标注者提出具有研究背景的问题并提供证据支持的多类型答案,形成了层次分明的知识体系。
特点
该数据集在科学文献理解任务中展现出鲜明的多维特征。其不仅包含论文的标题、摘要与全文段落,还整合了图表说明,提供了跨模态的学术信息。问答部分设计尤为精巧,每个问题均关联研究背景与检索查询,答案则涵盖抽取式片段、自由文本形式、是否判断及不可回答标识,并附有具体的证据定位,这种结构支持对复杂科学推理的深度建模。数据集整体呈现高度的结构化与语义关联性,为机器阅读理解与知识检索提供了丰富的细粒度监督信号。
使用方法
对于研究者而言,QASPER数据集的使用需遵循其内在的学术逻辑。典型应用场景包括训练与评估科学文献的自动问答系统、证据检索模型以及阅读理解模型。使用者可依据论文ID索引,获取完整的文本、图表及对应的问答对,利用问题中的背景信息与检索查询引导模型定位相关证据,并通过对比多种答案类型(如提取式答案、自由形式答案或是否判断)来评估模型的综合理解能力。数据集中提供的证据序列与答案真值可直接用于监督学习或作为基准测试的参考标准。
背景与挑战
背景概述
在自然语言处理领域,科学文献的问答系统一直是研究热点,旨在提升机器对学术文本的理解与推理能力。QASPER数据集由Allen Institute for AI等机构于2021年创建,专注于解决科学论文的问答任务,其核心研究问题在于如何从复杂的长文档中提取精确答案,并支持多类型问题,如提取式、自由形式及是否类回答。该数据集基于计算机科学领域的论文构建,通过整合标题、摘要、全文及图表信息,推动了文档级问答模型的发展,对学术信息检索和知识挖掘产生了深远影响。
当前挑战
QASPER数据集面临的挑战主要体现在两个方面:在领域问题层面,科学文献通常包含专业术语、复杂结构和隐含推理,这要求模型具备深层次的语义理解和跨段落整合能力,以应对提取式与生成式答案的混合需求;在构建过程中,挑战源于数据标注的复杂性,例如需要专家标注者理解论文内容并生成高质量问题与答案,同时确保证据链的准确性和一致性,这增加了数据收集与验证的难度。
常用场景
经典使用场景
在自然语言处理领域,QASPER数据集为问答系统研究提供了重要支撑,其经典使用场景聚焦于针对学术论文的问答任务。该数据集通过构建基于科学文献全文的问答对,使研究者能够训练和评估模型在复杂文档中的信息检索与答案生成能力。模型需要理解论文的抽象、正文及图表内容,以回答涉及方法、结果或背景的多样化问题,这推动了文档级问答技术的进步,尤其在处理长文本和多模态信息方面展现出独特价值。
衍生相关工作
围绕QASPER数据集,已衍生出多项经典研究工作,主要集中在文档级问答与证据检索模型的创新上。例如,研究者利用该数据集开发了基于Transformer的端到端问答系统,整合了段落检索与答案生成模块。同时,一些工作探索了多任务学习框架,将问答与文本摘要、图表理解相结合,以提升对科学文献的全面理解。这些衍生研究不仅推动了数据集本身的完善,还为自然语言处理领域的长文档处理技术提供了重要参考。
数据集最近研究
最新研究方向
在学术文献问答领域,QASPER数据集凭借其基于科学论文全文的问答结构,正推动着长文档理解与证据检索的前沿探索。当前研究聚焦于多跳推理与跨段落信息整合,通过结合检索增强生成技术,模型能够更精准地定位分散在文本中的答案依据。热点事件如大型语言模型在学术辅助工具中的应用,进一步凸显了该数据集在提升文献阅读效率方面的潜力。其影响在于为复杂问答系统提供了真实场景下的评估基准,促进了自然语言处理技术在学术知识挖掘中的实际落地,意义深远。
以上内容由遇见数据集搜集并总结生成



