emozilla/qasper-pruned-llama-gptneox-4k

Name: emozilla/qasper-pruned-llama-gptneox-4k
Creator: emozilla
Published: 2023-04-28 16:01:04
License: 暂无描述

Hugging Face2023-04-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/emozilla/qasper-pruned-llama-gptneox-4k

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: id dtype: string - name: title dtype: string - name: abstract dtype: string - name: full_text sequence: - name: section_name dtype: string - name: paragraphs list: string - name: qas sequence: - name: question dtype: string - name: question_id dtype: string - name: nlp_background dtype: string - name: topic_background dtype: string - name: paper_read dtype: string - name: search_query dtype: string - name: question_writer dtype: string - name: answers sequence: - name: answer struct: - name: unanswerable dtype: bool - name: extractive_spans sequence: string - name: yes_no dtype: bool - name: free_form_answer dtype: string - name: evidence sequence: string - name: highlighted_evidence sequence: string - name: annotation_id dtype: string - name: worker_id dtype: string - name: figures_and_tables sequence: - name: caption dtype: string - name: file dtype: string splits: - name: train num_bytes: 8655338.31081081 num_examples: 270 - name: validation num_bytes: 3558432.359430605 num_examples: 101 - name: test num_bytes: 5882799.947115385 num_examples: 158 download_size: 5513887 dataset_size: 18096570.6173568 --- # Dataset Card for "qasper-pruned-llama-gptneox-4k" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

emozilla

原始信息汇总

数据集概述

数据集特征

id: 字符串类型
title: 字符串类型
abstract: 字符串类型
full_text:
- section_name: 字符串类型
- paragraphs: 字符串列表
qas:
- question: 字符串类型
- question_id: 字符串类型
- nlp_background: 字符串类型
- topic_background: 字符串类型
- paper_read: 字符串类型
- search_query: 字符串类型
- question_writer: 字符串类型
- answers:
  - answer:
    - unanswerable: 布尔类型
    - extractive_spans: 字符串序列
    - yes_no: 布尔类型
    - free_form_answer: 字符串类型
    - evidence: 字符串序列
    - highlighted_evidence: 字符串序列
  - annotation_id: 字符串类型
  - worker_id: 字符串类型
figures_and_tables:
- caption: 字符串类型
- file: 字符串类型

数据集分割

train:
- num_bytes: 8655338.31081081
- num_examples: 270
validation:
- num_bytes: 3558432.359430605
- num_examples: 101
test:
- num_bytes: 5882799.947115385
- num_examples: 158

数据集大小

download_size: 5513887
dataset_size: 18096570.6173568

搜集汇总

数据集介绍

构建方式

该数据集基于QASPEr问答语料库进行剪枝优化，适配于LLaMA和GPT-NeoX等大语言模型的4K上下文窗口。构建过程中，对原始论文中的长文本进行截断处理，保留关键段落与问答对，确保在限定长度内维持语义完整性。数据集包含论文标题、摘要、全文结构（章节与段落）、问答对（含问题背景、答案类型如可回答性、抽取片段、是非判断及自由文本）以及图表信息，通过结构化序列格式存储，便于模型训练与评估。

特点

数据集具备高度专业化的学术问答特性，涵盖自然语言处理领域的深度问题，每篇论文附有多个问答对，并提供答案的证据文本与高亮部分。其独特之处在于包含不可回答问题的标记，增强模型对不确定性的处理能力。此外，数据集按训练、验证、测试划分，规模适中（共529篇论文），适合小样本微调与领域内模型性能基准测试。

使用方法

使用时，可直接通过HuggingFace Datasets库加载，指定split参数获取对应子集。数据以字典形式提供，包含'id'、'title'、'abstract'、'full_text'、'qas'和'figures_and_tables'字段。对于问答任务，可提取'question'与'answers'字段中的'free_form_answer'或'extractive_spans'进行训练。建议结合分词器处理文本长度，确保不超过模型最大输入限制，并利用'evidence'字段辅助答案溯源。

背景与挑战

背景概述

在自然语言处理领域，面向科学文献的问答系统研究日益受到关注，其核心挑战在于如何从长篇且结构复杂的学术文本中精准提取信息。emozilla/qasper-pruned-llama-gptneox-4k数据集应运而生，它是对原始QASPER数据集的精简与适配版本，主要面向长文本理解与生成任务。该数据集由emozilla团队基于Llama和GPT-NeoX架构进行优化，创建于大语言模型快速迭代的时期，旨在解决现有问答数据集在上下文长度限制下的适用性问题。通过保留论文的标题、摘要、全文段落、图表及对应的问答对，该数据集为研究者提供了评估模型在长程依赖与多模态信息融合能力上的标准化基准，对推动科学文献自动理解与知识抽取技术的发展具有重要影响。

当前挑战

该数据集所面临的核心挑战首先体现在领域问题的复杂性上：科学文献问答任务要求模型不仅理解自然语言问题，还需从结构化文本（如分段章节）和非结构化内容（如图表标题）中提取线索，这对模型的跨模态推理与长文本记忆能力提出了严苛考验。其次，构建过程中的挑战尤为突出：原始QASPER数据集的问答对依赖人工标注，而本数据集在裁剪与适配时需平衡上下文长度与信息完整性，例如将长文本截断至4k token以内，容易导致关键证据丢失或答案歧义。此外，标注不一致性（如不同工人对‘不可回答’问题的判断差异）以及稀疏的问答分布（部分论文仅含少量问题）进一步增加了模型泛化的难度，使得该数据集成为检验大语言模型在专业领域鲁棒性的重要试金石。

常用场景

经典使用场景

Qasper-Pruned-Llama-GPTNeoX-4k 数据集是面向自然语言处理领域的长文档问答任务而精心构建的基准资源。其核心设计聚焦于科研论文的深度理解，通过提供包含标题、摘要、全文段落、图表标题以及人工标注的问题-答案对，使得模型能够在长达4k token的上下文窗口内进行精准的信息检索与推理。该数据集特别适用于评估和训练大型语言模型在学术文献上的阅读理解能力，尤其是那些需要从复杂、多章节的论文中提取证据并生成自由形式答案的场景。其经典用法在于作为长文本问答系统的标准化测试平台，推动模型在证据定位、多跳推理以及不可回答问题的判别等关键能力上的进步。

实际应用

从实际应用视角审视，该数据集为智能文献检索系统和学术知识引擎的构建提供了关键支撑。基于该数据集训练的模型能够辅助科研人员快速定位论文中的核心结论、实验方法或数据来源，从而大幅提升文献综述与知识获取的效率。此外，其结构化的问题-答案映射关系可直接应用于自动化论文审阅、学术问答助手以及跨论文知识图谱的构建。在工业界，该数据集还被用于优化大型语言模型在专业领域（如生物医学、计算机科学）的指令微调流程，使得模型能够更可靠地处理包含大量图表和长格式文本的复杂查询。

衍生相关工作

围绕该数据集已衍生出一系列具有影响力的经典工作。例如，基于其长上下文特性，研究者开发了专门针对学术文献的稀疏注意力机制与分段检索增强生成（RAG）策略，显著提升了模型在4k token窗口内的推理效率。此外，该数据集被广泛用作评估基线，催生了如Longformer、BigBird等长文本Transformer架构在问答任务上的性能对比研究。在模型训练方面，相关工作探索了如何利用其不可回答问题标注来训练模型的不确定性估计能力，从而提升了问答系统的鲁棒性。这些衍进工作不仅深化了对长文本理解的理论认知，也为后续更高效、更可靠的学术知识服务系统奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集