LV-Eval
收藏arXiv2024-02-06 更新2024-06-21 收录
下载链接:
https://github.com/infinigence/LVEval
下载链接
链接失效反馈官方服务:
资源简介:
LV-Eval是一个包含11个双语数据集的长上下文基准,涵盖5个长度级别(16k, 32k, 64k, 128k, 256k),用于评估大型语言模型在长上下文理解能力。该数据集通过引入混淆事实插入、关键词和短语替换以及基于关键词召回的度量设计,增强了测试的挑战性和客观性。LV-Eval的应用领域包括单跳和多跳问答任务,旨在解决现有基准在长上下文评估中的不足,提供更全面和控制性的模型评估。
LV-Eval is a long-context benchmark consisting of 11 bilingual datasets, spanning five length tiers (16k, 32k, 64k, 128k, 256k) for evaluating the long-context understanding capabilities of large language models (LLMs). This benchmark integrates designs including confusing fact insertion, keyword and phrase substitution, and keyword recall-based metrics, to enhance the challenging nature and objectivity of the evaluation. LV-Eval covers application scenarios such as single-hop and multi-hop question answering tasks, with the goal of addressing the shortcomings of existing benchmarks for long-context evaluation and providing more comprehensive and controlled model assessments.
提供机构:
上海人工智能实验室
创建时间:
2024-02-06
搜集汇总
数据集介绍

构建方式
在长上下文理解领域,现有基准的平均文本长度常局限于数万词量级,难以充分评估支持256K及以上上下文的大语言模型。LV-Eval通过系统化流程构建了覆盖五个长度层级(16K至256K词)的双语基准,其核心方法包括:从公开问答数据集中筛选支持性文档与干扰文档,并依据预设长度混合生成多尺度上下文;针对部分数据集,利用GPT-4生成并经人工修订的混淆事实随机插入文本,以提升推理难度;同时,通过人工标注的关键词与短语替换规则,对上下文及问答对进行语义保留的词汇替换,有效缓解知识泄露问题。
特点
LV-Eval的显著特点在于其平衡且具挑战性的设计。该基准不仅提供了从16K到256K词的五级可控长度评估框架,确保同一问答对在不同长度上下文中保持一致,还通过引入混淆事实与干扰文档,模拟了真实场景中信息检索与多步推理的复杂性。此外,数据集采用双语构建(中英文),涵盖单跳与多跳问答两类任务,共包含11个子集,有效扩展了评估维度。其创新的关键词召回度量机制,结合人工标注的答案关键词与非信息词黑名单,进一步提升了评分客观性,减少传统N-gram度量对格式变化的敏感度。
使用方法
使用LV-Eval进行评估时,研究者需首先加载对应长度层级的上下文与问答对,输入待测大语言模型以获取预测答案。评估过程采用两阶段度量方法:首先计算预测答案中人工标注的答案关键词召回率,若超过设定阈值(英文0.4,中文0.2),则进入第二阶段,在过滤非信息词黑名单后计算预测与标准答案间的F1分数;否则直接赋零分。该流程要求模型严格依赖上下文理解而非先验知识进行作答,适用于系统化测试模型在超长文本中的信息定位、抗干扰推理及跨语言理解能力。所有数据与评估代码已公开,便于复现与比较研究。
背景与挑战
背景概述
随着大语言模型在长上下文理解能力上的显著突破,其支持的上下文长度已从数千标记扩展至数十万标记。然而,现有长上下文评测基准的平均文本长度普遍局限于数万词量级,难以充分评估前沿模型的极限能力,且普遍存在知识泄露与评估指标偏差等问题。为此,由Infinigence-AI、清华大学等机构的研究团队于2024年共同推出了LV-Eval评测基准。该基准旨在系统评估大语言模型在超长文本下的精确信息定位与复杂推理能力,其核心研究问题聚焦于如何构建一个长度可控、抗干扰且能有效缓解知识泄露的平衡性评测体系。LV-Eval通过设立五个长度级别(16K至256K词)并融入单跳与多跳问答任务,为长上下文模型的性能评估提供了更为严谨与全面的标准化工具,对推动模型在长文档理解、对话历史分析等实际应用场景的发展具有重要影响力。
当前挑战
LV-Eval所针对的长上下文理解领域,核心挑战在于模型如何在极长文本中精准定位关键信息并抵抗干扰完成复杂推理。具体而言,模型需在“大海捞针”式压力测试中,从海量干扰文档里准确检索细微证据;同时,在面对插入的混淆事实时,需保持推理的鲁棒性,避免被相似但错误的信息误导。在数据集构建过程中,研究团队面临多重挑战:一是如何设计长度分级且内容平行的上下文,以实现对模型长度扩展能力的可控评估;二是通过人工标注与GPT-4生成相结合的方式,创造非冲突性混淆事实以提升任务难度;三是采用关键词与短语替换策略,以最大程度减少公开语料带来的知识泄露问题;四是设计基于关键词召回的两阶段评估指标,以降低传统N-gram指标对答案格式与非信息词的敏感性,确保评分更为客观可靠。
常用场景
经典使用场景
在长上下文语言模型评估领域,LV-Eval数据集被广泛用于系统性地测试模型在不同文本长度下的理解能力。其经典使用场景包括在五个长度级别(16k、32k、64k、128k、256k)上对模型进行单跳和多跳问答任务的评估,通过混淆事实插入和关键词替换等技术,模拟真实世界中信息检索与推理的复杂性,为研究者提供了一个可控且具有挑战性的测试平台。
解决学术问题
LV-Eval主要解决了长上下文评估中存在的三个核心学术问题:一是传统基准平均长度不足导致的评估偏差,二是训练数据泄露引发的知识泄漏问题,三是自动度量指标对答案格式敏感造成的评分不准确。通过设计平衡的长度级别、引入混淆事实和关键词替换技术,以及基于关键词召回的两阶段度量方法,该数据集显著提升了评估的客观性和可靠性,推动了长上下文理解研究的规范化发展。
衍生相关工作
围绕LV-Eval数据集,学术界衍生了一系列重要研究工作,包括对位置编码外推方法的改进、稀疏注意力机制的优化以及长上下文微调策略的探索。例如,基于其评估结果,研究者进一步开发了如YaRN等高效上下文窗口扩展技术,并推动了如Yi-6B-200k等超长上下文模型的发展。这些工作共同深化了对模型长文本处理极限的理解,为下一代语言模型的架构设计提供了实证基础。
以上内容由遇见数据集搜集并总结生成



