NoLiMa
收藏github2025-02-20 更新2025-03-08 收录
下载链接:
https://github.com/adobe-research/NoLiMa
下载链接
链接失效反馈官方服务:
资源简介:
NoLiMa是一个用于评估长上下文中文本模型表现的数据集,特别是当literal matches不存在时,模型需要推断潜在的关联以在 haystack 中定位 needle。
NoLiMa is a dataset designed to evaluate the performance of long contextual Chinese text models, particularly in scenarios where literal matches are absent, necessitating the inference of potential associations to locate the needle in the haystack.
创建时间:
2025-02-19
原始信息汇总
NoLiMa: 长文本上下文评估基准
概述
NoLiMa是一个评估大型语言模型(LLM)长文本上下文处理能力的基准。该基准通过设计具有极小词汇重叠的“针”集合,要求模型在无直接匹配的情况下推断潜在关联以在“干草堆”中定位“针”。
数据集详情
- 数据集名称:NoLiMa
- 数据集描述:用于评估LLM在处理长文本上下文时的性能。
- 基准类型:评估LLM在长文本上下文中查找相关信息的能力。
- 数据来源:Adobe Research
使用说明
- 安装要求:使用
pip install -r requirements.txt安装所需包。 - 数据下载:使用
data/download_NoLiMa_data.sh从HuggingFace Datasets下载数据。 - 数据存放路径:
data目录。
评估指南
- 本地服务模型:使用
evaluation/vllm_serve.sh启动模型服务(可选)。 - API基础模型:在
evaluation/model_configs文件夹中创建或修改模型配置。 - 通用步骤:在
evaluation/run_config目录中准备测试配置文件,运行evaluation/run_tests.sh进行评估,并使用evaluation/gather_results.ipynb笔记本收集结果。
性能结果
- 模型性能:包含GPT-4o、Llama 3.3 70B、Llama 3.1 405B等多个模型在不同上下文长度下的性能。
- 有效长度:模型保持至少85%基线分数的最长上下文长度。
- 基线分数:模型在短上下文(250、500和1K)下的准确度。
引用信息
- 引用论文:Modarressi A, Deilamsalehy H, Dernoncourt F, Bui T, Rossi RA, Yoon S, Schütze H. NoLiMa: Long-Context Evaluation Beyond Literal Matching. arXiv preprint arXiv:2502.05167. 2025.
许可信息
- 代码和针集数据:Adobe Research License,禁止商业用途,允许非商业研究使用。
- 干草堆数据:具体许可信息见
data/haystack/LICENSES.md。
搜集汇总
数据集介绍

构建方式
NoLiMa数据集的构建旨在评估大型语言模型处理长文本上下文的能力。该数据集通过精心设计的needle集合,确保问题与needle之间具有极小的词汇重叠,迫使模型在缺乏直接文字匹配的情况下推断潜在关联,以在haystack中定位needle。数据集包含了不同长度的问题和相应的答案片段,以及大量的无关上下文文本作为干扰项。
特点
NoLiMa数据集的特点在于其独特的评价方式,它不仅要求模型在长文本上下文中识别相关信息,还要求模型在没有直接文字匹配的情况下进行推理。此外,数据集提供了多个难度级别,能够区分模型在不同长度的上下文中的表现,以及在不同类型的needle集合中的处理能力。
使用方法
使用NoLiMa数据集进行模型评估时,首先需要安装必要的依赖包,并从HuggingFace Datasets下载数据集。然后,可以根据需要配置本地模型服务器或API服务,并准备测试配置文件。通过运行evaluation目录下的脚本,可以执行评估并收集结果,最后使用提供的notebook将结果汇总为csv文件。
背景与挑战
背景概述
NoLiMa数据集是一项针对长文本上下文理解能力进行评估的研究成果,其创建于2025年,主要研究人员包括Ali Modarressi、Hanieh Deilamsalehy等,并由相关团队共同完成。该数据集的核心研究问题是评估大型语言模型在处理长文本上下文时的能力,特别是在缺乏直接文字匹配的情况下。NoLiMa通过精心设计的测试,要求模型在长文本中定位相关信息,对模型的深层理解和推理能力提出了挑战。该数据集在自然语言处理领域产生了重要影响,为长文本上下文评估提供了新的方法和视角。
当前挑战
NoLiMa数据集在构建过程中遇到的挑战主要包括:1) 设计能够在长文本上下文中有效定位相关信息的测试,这要求模型不仅能够处理直接的文字匹配,还要能够进行深层的语义理解和推理;2) 在模型评估过程中,随着上下文长度的增加,模型的性能显著下降,这表明当前模型的注意力机制在处理长文本时存在困难;3) 如何准确衡量模型在长文本上下文中的表现,尤其是在缺乏直接文字匹配的情况下,这是评估过程中的一个重要挑战。
常用场景
经典使用场景
针对大型语言模型在处理长文本上下文时的能力评估,NoLiMa数据集提供了一个独特的视角。该数据集通过精心设计的测试,要求模型在缺乏直接词汇对应的情况下,推断出潜在的关联以从长文本中定位关键信息,从而模拟了现实世界中复杂的推理和搜索任务。
衍生相关工作
NoLiMa数据集的引入促进了相关领域的研究,如长文本上下文处理、推理模型评估等。它激发了对现有模型性能的深入分析,以及针对长文本推理任务的新型模型架构和训练策略的开发。
数据集最近研究
最新研究方向
NoLiMa数据集针对长文本上下文的评估问题,提出了超出了文字匹配的评估方法。该数据集通过精心设计的针(needle)集合,使得问题与针之间具有极小的词汇重叠,迫使模型推断潜在的关联以在草堆(haystack)中定位针。近期研究利用NoLiMa对12种流行的声称支持至少128K tokens上下文的大语言模型进行了评估,发现随着上下文长度的增加,模型的性能显著下降。这一发现对理解和改进长文本处理机制具有重要意义,为长上下文评估提供了新的研究方向和挑战。
以上内容由遇见数据集搜集并总结生成



