NeedleChain

github2025-07-31 更新2025-08-22 收录

下载链接：

https://github.com/hyeonseokk/NeedleChain

下载链接

链接失效反馈

官方服务：

资源简介：

NeedleChain是一个用于评估大型语言模型完整长上下文理解能力的基准数据集。每个提供的上下文都包含查询相关信息，需要全面理解才能回答给定的查询。

NeedleChain is a benchmark dataset developed to evaluate the full long-context understanding capability of large language models (LLMs). Each provided context contains information relevant to the given query, and comprehensive understanding of the entire context is required to answer the query.

创建时间：

2025-07-31

原始信息汇总

NeedleChain 数据集概述

数据集简介

NeedleChain 是一个用于评估大型语言模型（LLM）完整长上下文理解能力的基准测试。每个提供的上下文均包含与查询相关的信息，要求模型进行全面理解以回答给定查询。

数据生成

实验使用的样本数据位于 ./data 文件夹中。
提供完整代码以支持基准测试的灵活配置。
可通过执行 make_data.py 脚本生成自定义数据，支持以下参数配置：
- k：每条链中的针数量（示例值：5）
- n：每个数据集中的链数量（示例值：200）
- val：每个针的标准薪资值（示例值：1600）
- results_dir：数据保存路径（示例值："./data"）

推理框架

代码库基于 vLLM 框架构建，实验使用八块 RTX A6000 GPU，具体环境要求如下：

torch==2.6.0+cu124
vllm==0.8.5
transformers==4.53.1
openai==1.97.0

模型服务（OpenAI兼容）

支持 HuggingFace 模型的服务启动：

nohup python model_serve.py --model_name QwQ > logs/model &

模型名称配置参考 utils.py 中的 model_arg_dict 字典，包含以下模型映射：

qwen2.5-32B → Qwen/Qwen2.5-32B-Instruct
qwen3-32B → Qwen/Qwen3-32B
llama3.3-70B → meta-llama/Llama-3.3-70B-Instruct
llama3.1-DS → deepseek-ai/DeepSeek-R1-Distill-Llama-70B
qwen2.5-DS → deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
qwen_long → Qwen/QwenLong-L1-32B
QwQ → Qwen/QwQ-32B

推理执行

支持 HuggingFace 模型和 GPT-4o 模型的推理调用，参数配置包括：

model_name：模型名称（参考模型字典）
output_name：输出文件名
chain_type：链类型选项 [forward, backward, chaotic(mixed), parallel(needlestack)]
question_type：问题类型选项 [single, total]
k：针数量选项 [5, 10, 20, 50, 100, 200]
results_dir：结果保存路径

评估方法

通过执行 evaluate.py 脚本进行评估，需准确指定 results_dir 参数。

相关资源

HuggingFace 数据集地址：https://huggingface.co/datasets/hyeonsss/needlechain
官方论文：https://arxiv.org/abs/2507.22411

搜集汇总

数据集介绍

构建方式

在长上下文推理能力评估领域，NeedleChain数据集通过程序化生成方法构建，采用多参数配置的代码框架动态创建测试样本。执行make_data.py脚本时可灵活设定关键参数，包括每条链中包含的针状信息数量（k值）、数据集链总数（n值）以及每个信息节点的标准数值标识（val值），最终生成包含多维推理链的结构化文本数据，所有生成数据均保存在指定目录下以供模型测试使用。

特点

该数据集的核心特征体现在其设计的链式推理结构上，每条上下文均包含多个相互关联的查询相关信息节点，形成前向、后向、混沌混合及并行堆叠四种链式拓扑。通过控制k值（5至200个信息节点）可实现不同复杂度的长上下文测试场景，且每个信息节点均嵌入标准数值验证点，要求模型必须完整理解全局上下文语义关联才能准确回答问题，从而精准衡量大语言模型对长文本的逻辑连贯性把握能力。

使用方法

使用该数据集时需依托vLLM推理框架部署待测模型，通过model_serve.py启动OpenAI兼容的API服务后，调用inference_call.py指定模型名称、链类型（forward/backward/chaotic/parallel）、问题类型（single/total）及节点数量参数执行推理。推理结果将自动保存至指定目录，最终运行evaluate.py脚本即可获取模型在多层次长上下文推理任务中的性能评估报告，整个过程支持本地化部署与云端API调用两种模式。

背景与挑战

背景概述

随着大语言模型在长文本处理能力上的突破，NeedleChain基准测试应运而生，由研究团队于2025年7月通过arXiv正式发布。该数据集专注于评估模型在包含多重查询相关信息的复杂上下文环境中的完整推理能力，旨在推动模型在金融、法律等长文本密集型领域的应用。其设计通过模拟真实场景中信息链式分布的特点，为大语言模型的长上下文理解设立了新的评估标准，对提升模型在实际应用中的可靠性具有显著影响。

当前挑战

NeedleChain致力于解决长上下文推理中的信息完整性挑战，要求模型在分散但互相关联的信息片段中准确提取并整合答案。构建过程中的主要难点在于生成高质量的多层链式数据结构，确保每个“信息针”既能独立存在又具备逻辑关联性，同时还需保持上下文语义的一致性和多样性。此外，基准测试还需有效平衡数据复杂度与评估可行性，以适配不同规模的模型验证需求。

常用场景

经典使用场景

在长文本理解领域，NeedleChain数据集通过构建多层级信息链结构，系统评估大语言模型对复杂长上下文关系的完整推理能力。其经典应用场景包括让模型在包含多个关键信息点的长文本中定位特定答案，要求模型不仅识别表面信息，还需理解信息间的逻辑关联与层次结构，从而完成精确的多跳推理任务。

解决学术问题

该数据集有效解决了长文本理解中信息分散性与逻辑连贯性的评估难题，为学术界提供了量化模型长上下文推理能力的标准范式。通过设计前向链、后向链、混合链和平行堆栈四种推理结构，它能够系统检验模型在不同逻辑复杂度下的表现，填补了传统基准测试在细粒度长文本推理评估方面的空白。

衍生相关工作

基于NeedleChain的评估框架，衍生出多个针对长上下文模型的优化研究，包括QwenLong-L1-32B等专门优化长文本处理的模型架构。该数据集还推动了链式推理评估范式的标准化，被后续研究如NeedleStack等扩展为更复杂的多维评估体系，成为长文本理解领域的重要基准参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集