SciTrek

Name: SciTrek
Creator: 爱丁堡大学信息学院
Published: 2025-09-25 19:36:09
License: 暂无描述

arXiv2025-09-25 更新2025-09-27 收录

下载链接：

https://github.com/oaimli/SciTrek

下载链接

链接失效反馈

官方服务：

资源简介：

SciTrek 是一个基于科学文章的问答基准，旨在评估大型语言模型（LLMs）在处理长上下文文本时的推理能力。该数据集包含了 2,121 个问答对，覆盖了不同长度的上下文（64K、128K、512K 和 1M tokens）。SciTrek 通过将问题转化为 SQL 查询，并从由文章元数据（标题、作者和参考文献）构建的数据库中获取答案，从而自动生成问题和答案。数据集的创建过程只需要很少的人工干预，并且可以扩展到其他领域。SciTrek 主要用于评估 LCLMs 在信息整合、复杂推理和长期记忆方面的能力。

SciTrek is a scientific article-based question answering benchmark designed to evaluate the reasoning capabilities of large language models (LLMs) when handling long-context texts. The dataset contains 2,121 question-answer pairs, covering contexts of varying token lengths: 64K, 128K, 512K, and 1M tokens. SciTrek automatically generates questions and answers by converting questions into SQL queries and retrieving answers from a database constructed from article metadata including title, authors, and references. The dataset creation process requires minimal human intervention and can be extended to other domains. SciTrek is primarily used to evaluate the capabilities of LLMs in information integration, complex reasoning, and long-term memory.

提供机构：

爱丁堡大学信息学院

创建时间：

2025-09-25

原始信息汇总

SciTrek 数据集概述

数据集简介

SciTrek 是一个用于评估长上下文语言模型在科学文章上性能的数据集。该数据集目前处于开发阶段。

当前状态

开发状态：进行中（in progress）

搜集汇总

数据集介绍

构建方式

SciTrek数据集的构建基于科学文献的元数据自动化处理流程，通过Semantic Scholar平台获取涵盖计算机科学、经济学、物理学等八个学科领域的662篇学术论文全文。研究团队采用两跳引用图采样策略构建文章集群，并通过随机采样与图遍历两种方式生成64K至1M令牌长度的文本集合。每个集合对应一个结构化数据库，包含文章、作者关系及引用关系三张数据表，并基于SQL查询模板自动生成问题与真实答案，最后利用大语言模型将SQL查询转换为自然语言问题，并通过逆向验证确保语义一致性。

特点

该数据集的核心特点在于其长上下文推理评估的专属性，聚焦于科学文献的多文档信息整合能力。其问题设计覆盖聚合、排序、过滤及关系过滤等六类信息处理技能，并涉及作者数量、引用关系等七个主题维度。数据集具备可扩展性优势，通过SQL骨架支持任意复杂度的查询生成，且无需人工标注即可获得可验证的答案。此外，1M令牌的上下文长度与人类标注者高达88.3%的答案一致性，确保了评估任务的自然性与可靠性。

使用方法

使用SciTrek进行评估时，需将完整科学文献文本或对应的结构化数据库作为输入上下文，要求模型直接回答基于元数据的自然语言问题。评估指标采用精确匹配与F1分数，重点关注模型在长上下文中的信息检索与合成能力。对于训练应用，可利用其提供的1.9万条训练实例进行监督微调或强化学习优化，特别适用于提升模型在数值运算、逻辑条件处理及跨文档推理方面的性能。该数据集支持细粒度错误分析，可通过SQL操作步骤追溯模型在特定推理环节的失效原因。

背景与挑战

背景概述

SciTrek数据集由爱丁堡大学信息学院的研究团队于2025年创建，旨在评估大语言模型在科学文献长上下文推理方面的能力。该数据集聚焦于解决现有长上下文基准依赖非科学文本、局限于简单信息检索任务或使用人工合成语境等局限性。通过构建基于科学文章元数据的自动化问答对生成框架，SciTrek首次实现了对模型在多文档信息聚合与合成能力的系统性评测，其核心研究问题在于探索模型在百万级令牌语境下进行复杂逻辑推理的极限。该数据集的推出为科学计算与文献分析领域提供了重要的评估工具，推动了长上下文模型在学术应用场景中的标准化进程。

当前挑战

SciTrek面临的领域挑战主要体现为模型在长科学文献语境下执行结构化推理的困难，特别是对引用关系网络的理解和复合逻辑条件的处理。构建过程中的技术挑战包括：如何实现从SQL查询到自然语言问题的自动化转换并保持语义一致性，如何在百万令牌级语境中确保元数据提取的准确性，以及如何设计可扩展的基准生成框架以支持不同长度层级的评测需求。此外，数据质量验证中需要解决人类标注者处理长文档的可行性问题，以及模型输出格式标准化与答案完整性校验等关键技术难点。

常用场景

经典使用场景

SciTrek作为评估长上下文语言模型在科学文献处理领域性能的核心基准，其经典应用场景聚焦于模拟科研人员在文献综述过程中的多文档信息整合需求。该数据集通过构建包含标题、作者和参考文献等元数据的科学文章集合，生成需要跨文档推理的复杂问题，例如统计特定条件下作者数量或分析文献引用关系。这种设计有效模拟了真实科研场景中研究者需要从大量文献中提取并综合信息的工作流程，为模型的长上下文理解能力提供了自然且具有挑战性的测试环境。

衍生相关工作

SciTrek的推出促进了长上下文评估范式的多项衍生研究。其基于SQL的显式推理步骤设计启发了HoloBench和MathHay等基准在结构化推理方面的改进，而自动化生成方法则为CURIE等科学领域基准的扩展提供了技术借鉴。在模型优化方面，该数据集支撑了基于监督微调和强化学习的训练策略探索，推动了如GRPO等算法在长上下文任务中的应用。这些衍生工作共同丰富了长上下文模型评估的技术体系，为后续研究奠定了重要基础。

数据集最近研究