five

needle-1M-bench-mvp

收藏
Hugging Face2026-04-28 更新2026-04-29 收录
下载链接:
https://huggingface.co/datasets/drawais/needle-1M-bench-mvp
下载链接
链接失效反馈
官方服务:
资源简介:
needle-1M-bench 是一个基于真实 arXiv 论文的长上下文忠实度基准数据集,旨在评估模型在长文本中的信息检索能力。数据集包含不同规模的测试项(50K、250K、500K、1M token)和排行榜分数。数据内容分为两类:基于真实论文的锚定针(paper-anchored)和纯随机代码的合成针(synthetic)。锚定针使用独特的验证令牌(VTK-XXXX-XXXX-XXXX)确保训练数据污染防御。数据集来源为公开许可的 arXiv 论文(CC-BY / CC-BY-SA / CC0),并经过严格的许可验证和事实筛选流程。数据集适用于问答和文本检索任务,特别适合评估模型在长上下文中的信息提取和记忆能力。数据集还包含详细的伦理考虑、使用限制和作者退出机制。
创建时间:
2026-04-27
原始信息汇总

数据集概述:needle-1M-bench

基本信息

  • 数据集名称:needle-1M-bench
  • 许可证:MIT(本仓库贡献部分);嵌入的引文遵循源论文的开放许可证(CC-BY / CC-BY-SA / CC0)
  • 任务类别:问答、文本检索
  • 语言:英语
  • 标签:基准测试、长上下文、大海捞针、排行榜、1M上下文
  • 数据规模:n < 1K

数据集描述

这是一个针对真实arXiv论文的长上下文忠实性基准测试,专为密集科学文本设计。基准测试采用集中评分方式,确保方法论一致性,防止自报告漂移。源论文文本不重新分发。

数据文件结构

文件 用途
data/needles_50k.json 50K token草堆中的10个测试项
data/needles_250k.json 250K token草堆中的25个测试项
data/needles_500k.json 500K token草堆中的40个测试项
data/needles_1000k.json 1M token草堆中的50个测试项
data/corpus_manifest_<size>.json 各草堆使用的arXiv ID列表
data/license_manifest.json 每篇论文的许可证记录
.eval_results/<model>-<size>.yaml 排行榜结果文件

规模详情

规模 Token数 针数 论文锚定 合成 不同源论文
50K 50,000 10 5 5 5
250K 250,000 25 12 13 12
500K 500,000 40 20 20 20
1M 1,000,000 50 25 25 25
  • 在每个规模内,每篇论文锚定针均来自不同的源论文。
  • 语料库仅来自common-pile/arxiv_papers中开放许可的子集。

两种针类型

论文锚定针

来自真实arXiv论文的逐字句子,附带唯一的审计日志标签和唯一的随机验证令牌(VTK-XXXX-XXXX-XXXX格式)。模型必须检索随机令牌,而非引用的论文文本。

合成针

纯随机代码,附带唯一标签,不涉及任何语料库内容。

模型提交与排行榜

提交方式:在数据集仓库中开启议题,主题为Eval request: <model-id>,包含提供商、API模型名称、最大上下文等信息。评估在7天内完成并发布结果。

当前排行榜(部分)

模型 总体 论文锚定 合成 草堆 最大Token 日期
deepseek-v4-pro 100.0% 100.0% 100.0% 50K 4096 2026-04-27
gemini-2.5-pro 100.0% 100.0% 100.0% 50K 4096 2026-04-27
qwen3-32b-awq-int4 100.0% 100.0% 100.0% 50K 2048 2026-04-28
deepseek-v4-pro 100.0% 100.0% 100.0% 250K 4096 2026-04-27
deepseek-v4-pro 100.0% 100.0% 100.0% 500K 4096 2026-04-27
deepseek-v4-pro 94.0% 88.0% 100.0% 1M 8192 2026-04-27

重要说明

  • 该基准测试衡量的是事实检索能力,而非事实本身的正确性。
  • 仅支持英语,且语料库偏向AI/ML领域。
  • 训练污染防御机制采用每构建随机生成的VTK令牌,而非论文的新颖度。
  • 评分会去除<think>...</think>块后再进行子串匹配。
  • 论文作者可通过提交议题要求排除其论文。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集旨在评估大语言模型在超长上下文场景下的信息忠实检索能力,其构建过程融合了真实学术文献与合成数据。数据来源严格限定于arxiv上采用CC-BY、CC-BY-SA或CC0开放许可的学术论文,每篇论文的许可证在获取与植入阶段均被重新验证。数据集包含四种规模(50K、250K、500K、1M token),每种规模均设有对应数量的测试项(从10到50个不等)。其中,一半的测试项为“论文锚定”型,即从真实论文中抽取的完整句子,并嵌入唯一的审计标签与随机验证令牌(VTK-XXXX-XXXX-XXXX格式),确保模型无法通过记忆原文获益;另一半为“合成”型,由纯随机代码与唯一标签构成。所有标签、答案模式与事实在单个干草堆内均保证唯一性。
特点
该数据集最显著的特性在于其双轨制测试结构与严格的防污染设计。论文锚定型测试项从真实学术论文中逐字引用(不超过410字符),并附有唯一随机令牌作为检索目标,即使模型在训练阶段已记忆该论文,也无法预知该令牌。合成型测试项则完全脱离语料内容,纯粹测试模型的检索机制。此外,所有事实均经过四重筛选:结构预过滤、Claude Haiku 4.5与DeepSeek-V4-Pro双重裁判评审及人工复核,确保事实质量与可验证性。数据集采用集中评分机制,由维护者统一运行评估,避免自我报告的漂移问题,并记录每项评估的具体参数(如最大输出token数)。
使用方法
使用本数据集需遵循集中评估流程,不支持自行运行测试。用户需在数据集仓库中提交issue(主题格式:Eval request: <模型ID>),提供模型提供商、确切API模型名称、最大上下文长度及可选联系方式。对于权重公开且能在40GB 4-bit精度下运行的模型,维护者将从HuggingFace直接获取;对于闭源模型,需提供API访问权限。评估将在7个工作日内完成,结果以YAML文件格式发布,并自动更新至排行榜。排行榜记录每个模型在不同干草堆规模上的总体召回率、论文锚定召回率与合成代码召回率,以及精细化的深度分布分析。用户需注意,评估仅衡量检索准确率,而非事实本身的真实性。
背景与挑战
背景概述
在长上下文语言模型迅猛发展的背景下,如何评估模型在密集科学文本中精准检索事实的能力,成为自然语言处理领域的关键瓶颈。由研究者Muhammad Awais主导创建的needle-1M-bench-mvp数据集于2026年正式发布,它基于arXiv上真实学术论文构建,旨在为百万级token上下文窗口下的检索忠实度提供标准化评测。该基准借助随机验证令牌机制,有效避免了训练数据污染对评估结果的影响,同时通过集中化评分维护了评测方法论的一致性。其贡献在于为长上下文模型的可靠性与精确性设立了可复现的标杆,对推动检索增强生成与信息抽取等方向的研究具有深远影响力。
当前挑战
该数据集旨在解决两大核心挑战。其一,领域问题层面,现有基准多依赖合成文本或短上下文,难以反映模型在处理密集学术文献时的真实检索能力,且容易受到模型对源文本记忆的干扰;needle-1M-bench通过引入唯一随机验证令牌,确保了评测聚焦于检索本身而非记忆。其二,构建过程层面,面临着从海量开放许可论文中筛选高质量事实的困难,为此采用了双模型判据(Claude Haiku与DeepSeek-V4-Pro)与人工审核相结合的四重筛选流程,并需在语料组装时实时验证每篇论文的许可证状态,以应对许可漂移问题,保证数据合规性与评测公平性。
常用场景
经典使用场景
在长上下文语言模型的评估领域,该数据集被广泛用作标准化的针束检索基准。研究者通过将精心设计的验证令牌(VTK)嵌入由真实arXiv论文构成的密集科学文本中,测试模型在50K至1M token规模的草堆内定位特定事实的能力。经典的使用方式是向模型提交包含待检索令牌的完整长文本,要求模型准确输出对应的随机验证码,以此衡量模型对长距离依赖关系的忠实度与注意力机制的可靠性。
衍生相关工作
围绕该数据集衍生了一系列重要的学术工作,包括基于其评估方法构建的改进型长上下文检索策略。例如,研究者借鉴其双法官事实池构建流程(Claude Haiku与DeepSeek-V4-Pro的联合评判),开发了更鲁棒的验证令牌生成方案;另有工作以其排名榜为评估基准,深入剖析推理型模型在检索准确性与推理轨迹之间的权衡;此外,部分衍生研究扩展了数据集的多语言或跨领域版本,旨在测试非英语或非AI/ML领域的检索能力,推动了长上下文评估体系的多元化发展。
数据集最近研究
最新研究方向
当前,大规模语言模型的长上下文处理能力已成为前沿探索的核心命题,而基于真实学术论文的忠实性评估基准则被视为破解该领域性能瓶颈的关键工具。needle-1M-bench-mvp数据集以百万级tokens的密集科学文本为干草堆,通过融合真实论文锚定与合成验证码的双重穿刺任务,精准衡量模型在超长序列中检索随机令牌的鲁棒性。该基准采用中央化评分机制规避自报告偏差,并借助双重大模型裁判与人工审查构筑高纯度事实池,其开源许可策略及防训练污染设计,为评估模型在科研文献场景下的深度语义定位能力提供了可复现的标准化范例,对于推动长上下文模型的实用化迭代具有里程碑意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作