PeerQA-XT

Hugging Face2026-02-19 更新2026-02-20 收录

下载链接：

https://huggingface.co/datasets/UKPLab/PeerQA-XT

下载链接

链接失效反馈

官方服务：

资源简介：

PeerQA-XT 是一个包含 12,628 个自由形式科学问答对的数据集，源自十个科学领域的学术文章及其同行评审。该数据集受 PeerQA 启发，但通过更广泛和全面的科学文章和同行评审集合，以及使用合成管道进行问题和答案提取，进一步扩展了原始数据集。问题由大型语言模型从同行评审中自动提取，对应的答案则来自作者的反驳或直接从论文文本生成。数据集包含以下字段：`pid`（论文唯一标识符）、`qid`（问题唯一标识符）、`question`（从同行评审中提取的问题）、`answer`（对应的答案）、`paper`（科学论文全文）、`domain`（论文所属科学领域）。数据集分为训练集（10,128 个样本）、验证集（1,248 个样本）和测试集（1,252 个样本）。PeerQA-XT 适用于问答和文本生成任务，旨在克服以往科学问答数据集在规模和质量上的局限性，通过利用同行评审中的专家级问题和作者反驳中的精确答案，结合自动验证流程，实现高质量和大规模的数据集构建。

创建时间：

2026-02-05

搜集汇总

数据集介绍

构建方式

在科学问答领域，高质量数据集的构建往往面临规模与深度难以兼顾的挑战。PeerQA-XT数据集通过创新的自动化流程，从多个开放获取的学术期刊中收集了涵盖十个科学领域的同行评审报告与作者回复。其构建始于将PDF格式的论文转换为结构化文本，随后利用Gemma-3-27B模型从同行评审中自动提取信息寻求型问题。对于答案的生成，若论文附有作者回复，则使用Llama-3.3-70B-Instruct模型从中提取精确回答；若无回复，则直接从论文文本生成。为确保答案的可靠性，系统通过BM25检索相关证据，并借助基于DeBERTa的自然语言推理模型进行验证，最终由Gemma-3-27B模型将答案统一为客观的第三人称表述。

特点

该数据集的核心特征在于其源自信誉卓著的学术交流过程，即同行评审与作者反驳，这确保了问题具备专家级的批判性视角，而答案则根植于严谨的学术论述。数据集覆盖了生物医学、计算机科学、工程学、化学及人文科学等十个广泛领域，体现了显著的学科多样性。通过精心设计的采样策略，它在控制主要领域样本数量的同时，有效保障了数据的平衡性与计算效率。此外，每个数据点不仅包含问答对，还提供了完整的论文文本与领域标签，为研究长文档理解与检索增强生成技术提供了丰富的上下文信息。

使用方法

研究者可通过Hugging Face的`datasets`库便捷加载PeerQA-XT数据集，其标准化的分割方式便于直接用于模型训练与评估。该数据集主要服务于科学问答与文本生成任务，特别适合用于微调大型语言模型，以提升其在长文档科学文献中的信息定位与答案生成能力。在具体应用中，模型可接收完整论文文本与问题，执行端到端的答案生成；亦可结合检索增强生成框架，先定位相关段落再生成答案。数据集附带的评估基准表明，经其微调的模型在领域内任务及多个外部科学问答基准上均展现出显著的性能提升与良好的泛化能力。

背景与挑战

背景概述

PeerQA-XT数据集于2026年由Ngen Jiaxi等人构建，作为PeerQA数据集的扩展版本，旨在应对科学问答领域长期存在的规模与质量权衡难题。该数据集从《自然·通讯》等五个开放获取期刊中，提取了涵盖生物医学、计算机科学等十个学科的学术论文及其同行评审内容，通过大语言模型自动化流程生成了12,628对高质量的科学问题与答案。其核心研究问题聚焦于如何利用同行评审中蕴含的专家级批判性质询，构建大规模、跨领域且具有深度推理需求的科学问答资源，为长文档理解与检索增强生成等前沿任务提供了关键数据支撑。

当前挑战

该数据集致力于解决科学问答任务中，模型处理长文档、进行复杂推理以及跨领域泛化的核心挑战。具体而言，挑战体现在从非结构化的同行评审文本中精准提取信息寻求型问题，并确保答案在原始论文中有确凿依据。在构建过程中，主要挑战包括设计自动化流程以平衡规模与质量，例如利用大语言模型进行问题提取与答案生成时需规避模型自身偏见，以及通过基于检索的自然语言推理验证步骤来保证答案的忠实性。此外，数据源中不同学科开放评审内容的可获得性差异，也为实现均衡的领域覆盖带来了挑战。

常用场景

经典使用场景

在科学问答研究领域，PeerQA-XT数据集为长文档问答任务提供了高质量的基准。其经典使用场景在于训练和评估大型语言模型处理复杂科学文献的能力，模型需要从整篇学术论文中定位信息，以回答源自同行评审的深入问题。该场景模拟了真实学术交流中的信息检索与理解过程，尤其适用于需要结合上下文进行推理的问答任务。

实际应用

在实际应用层面，PeerQA-XT数据集能够助力开发智能学术辅助工具。例如，基于该数据集训练的模型可以集成到学术搜索引擎或文献管理平台中，帮助研究人员快速从长篇论文中获取特定问题的答案，从而提升文献调研效率。此外，它也为构建能够理解科学论证、辅助同行评审过程的自动化系统提供了数据基础，具有促进科学交流与知识发现的潜在价值。

衍生相关工作

PeerQA-XT的构建理念继承并扩展了其前身PeerQA数据集的相关工作。该数据集本身也催生了一系列围绕科学长文档问答的模型评估与微调研究，例如在Qwen2.5-3B等模型上的性能验证工作。同时，其在外部基准如QASPER、SciDQA上的迁移评估，也促进了跨数据集泛化能力研究的深入，为后续探索领域自适应、证据检索与答案生成联合优化等方向提供了重要的实验平台和参照标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集