needle-1M-bench-mvp

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/drawais/needle-1M-bench-mvp

下载链接

链接失效反馈

官方服务：

资源简介：

needle-1M-bench 是一个基于真实 arXiv 论文的长上下文忠实度基准数据集，旨在评估模型在长文本中的信息检索能力。数据集包含不同规模的测试项（50K、250K、500K、1M token）和排行榜分数。数据内容分为两类：基于真实论文的锚定针（paper-anchored）和纯随机代码的合成针（synthetic）。锚定针使用独特的验证令牌（VTK-XXXX-XXXX-XXXX）确保训练数据污染防御。数据集来源为公开许可的 arXiv 论文（CC-BY / CC-BY-SA / CC0），并经过严格的许可验证和事实筛选流程。数据集适用于问答和文本检索任务，特别适合评估模型在长上下文中的信息提取和记忆能力。数据集还包含详细的伦理考虑、使用限制和作者退出机制。

创建时间：

2026-04-27

原始信息汇总

数据集概述：needle-1M-bench

基本信息

数据集名称：needle-1M-bench
许可证：MIT（本仓库贡献部分）；嵌入的引文遵循源论文的开放许可证（CC-BY / CC-BY-SA / CC0）
任务类别：问答、文本检索
语言：英语
标签：基准测试、长上下文、大海捞针、排行榜、1M上下文
数据规模：n < 1K

数据集描述

这是一个针对真实arXiv论文的长上下文忠实性基准测试，专为密集科学文本设计。基准测试采用集中评分方式，确保方法论一致性，防止自报告漂移。源论文文本不重新分发。

数据文件结构

文件	用途
`data/needles_50k.json`	50K token草堆中的10个测试项
`data/needles_250k.json`	250K token草堆中的25个测试项
`data/needles_500k.json`	500K token草堆中的40个测试项
`data/needles_1000k.json`	1M token草堆中的50个测试项
`data/corpus_manifest_<size>.json`	各草堆使用的arXiv ID列表
`data/license_manifest.json`	每篇论文的许可证记录
`.eval_results/<model>-<size>.yaml`	排行榜结果文件

规模详情

规模	Token数	针数	论文锚定	合成	不同源论文
50K	50,000	10	5	5	5
250K	250,000	25	12	13	12
500K	500,000	40	20	20	20
1M	1,000,000	50	25	25	25

在每个规模内，每篇论文锚定针均来自不同的源论文。
语料库仅来自common-pile/arxiv_papers中开放许可的子集。

两种针类型

论文锚定针

来自真实arXiv论文的逐字句子，附带唯一的审计日志标签和唯一的随机验证令牌（VTK-XXXX-XXXX-XXXX格式）。模型必须检索随机令牌，而非引用的论文文本。

合成针

纯随机代码，附带唯一标签，不涉及任何语料库内容。

模型提交与排行榜

提交方式：在数据集仓库中开启议题，主题为Eval request: <model-id>，包含提供商、API模型名称、最大上下文等信息。评估在7天内完成并发布结果。

当前排行榜（部分）

模型	总体	论文锚定	合成	草堆	最大Token	日期
deepseek-v4-pro	100.0%	100.0%	100.0%	50K	4096	2026-04-27
gemini-2.5-pro	100.0%	100.0%	100.0%	50K	4096	2026-04-27
qwen3-32b-awq-int4	100.0%	100.0%	100.0%	50K	2048	2026-04-28
deepseek-v4-pro	100.0%	100.0%	100.0%	250K	4096	2026-04-27
deepseek-v4-pro	100.0%	100.0%	100.0%	500K	4096	2026-04-27
deepseek-v4-pro	94.0%	88.0%	100.0%	1M	8192	2026-04-27

重要说明

该基准测试衡量的是事实检索能力，而非事实本身的正确性。
仅支持英语，且语料库偏向AI/ML领域。
训练污染防御机制采用每构建随机生成的VTK令牌，而非论文的新颖度。
评分会去除<think>...</think>块后再进行子串匹配。
论文作者可通过提交议题要求排除其论文。

搜集汇总

数据集介绍

构建方式

该数据集旨在评估大语言模型在超长上下文场景下的信息忠实检索能力，其构建过程融合了真实学术文献与合成数据。数据来源严格限定于arxiv上采用CC-BY、CC-BY-SA或CC0开放许可的学术论文，每篇论文的许可证在获取与植入阶段均被重新验证。数据集包含四种规模（50K、250K、500K、1M token），每种规模均设有对应数量的测试项（从10到50个不等）。其中，一半的测试项为“论文锚定”型，即从真实论文中抽取的完整句子，并嵌入唯一的审计标签与随机验证令牌（VTK-XXXX-XXXX-XXXX格式），确保模型无法通过记忆原文获益；另一半为“合成”型，由纯随机代码与唯一标签构成。所有标签、答案模式与事实在单个干草堆内均保证唯一性。

特点

该数据集最显著的特性在于其双轨制测试结构与严格的防污染设计。论文锚定型测试项从真实学术论文中逐字引用（不超过410字符），并附有唯一随机令牌作为检索目标，即使模型在训练阶段已记忆该论文，也无法预知该令牌。合成型测试项则完全脱离语料内容，纯粹测试模型的检索机制。此外，所有事实均经过四重筛选：结构预过滤、Claude Haiku 4.5与DeepSeek-V4-Pro双重裁判评审及人工复核，确保事实质量与可验证性。数据集采用集中评分机制，由维护者统一运行评估，避免自我报告的漂移问题，并记录每项评估的具体参数（如最大输出token数）。

使用方法

使用本数据集需遵循集中评估流程，不支持自行运行测试。用户需在数据集仓库中提交issue（主题格式：Eval request: <模型ID>），提供模型提供商、确切API模型名称、最大上下文长度及可选联系方式。对于权重公开且能在40GB 4-bit精度下运行的模型，维护者将从HuggingFace直接获取；对于闭源模型，需提供API访问权限。评估将在7个工作日内完成，结果以YAML文件格式发布，并自动更新至排行榜。排行榜记录每个模型在不同干草堆规模上的总体召回率、论文锚定召回率与合成代码召回率，以及精细化的深度分布分析。用户需注意，评估仅衡量检索准确率，而非事实本身的真实性。

背景与挑战

背景概述

在长上下文语言模型迅猛发展的背景下，如何评估模型在密集科学文本中精准检索事实的能力，成为自然语言处理领域的关键瓶颈。由研究者Muhammad Awais主导创建的needle-1M-bench-mvp数据集于2026年正式发布，它基于arXiv上真实学术论文构建，旨在为百万级token上下文窗口下的检索忠实度提供标准化评测。该基准借助随机验证令牌机制，有效避免了训练数据污染对评估结果的影响，同时通过集中化评分维护了评测方法论的一致性。其贡献在于为长上下文模型的可靠性与精确性设立了可复现的标杆，对推动检索增强生成与信息抽取等方向的研究具有深远影响力。

当前挑战

该数据集旨在解决两大核心挑战。其一，领域问题层面，现有基准多依赖合成文本或短上下文，难以反映模型在处理密集学术文献时的真实检索能力，且容易受到模型对源文本记忆的干扰；needle-1M-bench通过引入唯一随机验证令牌，确保了评测聚焦于检索本身而非记忆。其二，构建过程层面，面临着从海量开放许可论文中筛选高质量事实的困难，为此采用了双模型判据（Claude Haiku与DeepSeek-V4-Pro）与人工审核相结合的四重筛选流程，并需在语料组装时实时验证每篇论文的许可证状态，以应对许可漂移问题，保证数据合规性与评测公平性。

常用场景

经典使用场景

在长上下文语言模型的评估领域，该数据集被广泛用作标准化的针束检索基准。研究者通过将精心设计的验证令牌（VTK）嵌入由真实arXiv论文构成的密集科学文本中，测试模型在50K至1M token规模的草堆内定位特定事实的能力。经典的使用方式是向模型提交包含待检索令牌的完整长文本，要求模型准确输出对应的随机验证码，以此衡量模型对长距离依赖关系的忠实度与注意力机制的可靠性。

衍生相关工作

围绕该数据集衍生了一系列重要的学术工作，包括基于其评估方法构建的改进型长上下文检索策略。例如，研究者借鉴其双法官事实池构建流程（Claude Haiku与DeepSeek-V4-Pro的联合评判），开发了更鲁棒的验证令牌生成方案；另有工作以其排名榜为评估基准，深入剖析推理型模型在检索准确性与推理轨迹之间的权衡；此外，部分衍生研究扩展了数据集的多语言或跨领域版本，旨在测试非英语或非AI/ML领域的检索能力，推动了长上下文评估体系的多元化发展。

数据集最近研究