LaRA

github2025-03-05 更新2025-03-06 收录

下载链接：

https://github.com/Alibaba-NLP/LaRA

下载链接

链接失效反馈

官方服务：

资源简介：

LaRA是一个用于比较长文本上下文的语言模型（LC LLMs）和检索增强生成（RAG）的基准。它包含了32K和128K的上下文长度，三种自然发生的长文本类型，以及四个反映现实世界场景的基于上下文的问答任务，共计2326个测试案例。

LaRA is a benchmark for comparing long-context large language models (LC LLMs) and retrieval-augmented generation (RAG) approaches. It includes context lengths of 32K and 128K, three naturally occurring long-text types, four context-based question answering tasks that reflect real-world scenarios, and a total of 2,326 test cases.

创建时间：

2025-03-05

原始信息汇总

LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs

数据集简介

数据集名称：LaRA
数据集用途：用于比较长文本处理能力的长文本LLM（LC LLMs）和检索增强生成（RAG）方法。
数据集内容：包含32K和128K的上下文长度，三种自然发生的长文本类型，以及四种基于上下文的问答任务，总计2326个测试案例。
实验结果：实验表明，RAG和LC LLMs之间没有明确的优劣之分，性能受到上下文长度、上下文类型、模型处理长文本的能力和任务类型等多个因素的影响。

数据集结构

存储位置：dataset文件夹
文件命名：{context length}_{context type}_{task type}.jsonl
文件夹结构：

LaRA ├── dataset │ ├── 32k │ ├── 128k │ └── query │ ├──32k_book_comp.jsonl │ ├──32k_book_hallu.json │ ├──32k_book_location.jsonl │ ├──32k_book_reasoning.jsonl │ ├──32k_financial_comp.jsonl │ ├──32k_financial_hallu.jsonl │ ... ...

安装与使用

安装步骤

创建conda环境： shell conda create --name lara python=3.10 -y conda activate lara
克隆仓库并安装依赖： shell git clone https://github.com/Alibaba-NLP/LaRA.git cd LaRA pip install -r requirements.txt

评估步骤

生成预测：提供评估开源模型和专有模型的代码，位于evaluation文件夹中。
计算分数：使用GPT-4o或Qwen-max进行评估。

引用

bibtex @article{li2025lara, title={LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs-No Silver Bullet for LC or RAG Routing}, author={Li, Kuan and Zhang, Liwen and Jiang, Yong and Xie, Pengjun and Huang, Fei and Wang, Shuai and Cheng, Minhao}, journal={arXiv preprint arXiv:2502.09977}, year={2025} }

搜集汇总

数据集介绍

构建方式

LaRA数据集的构建，针对长文本处理能力的评估需求，涵盖了32K与128K两种不同长度上下文，三种自然发生的长文本类型，以及四个基于上下文的问答任务，共计2326个测试案例。此数据集旨在比较长文本LLM（LC LLMs）与检索增强生成（RAG）的性能差异。

特点

LaRA数据集的特点在于其综合性的评估框架，不仅包含了不同长度的上下文，还涵盖了多样化的文本类型和任务类型，为评估模型在处理长文本时的表现提供了全面且细致的视角。实验结果表明，RAG与LC LLMs之间并无绝对的优劣之分，性能取决于多种因素，包括上下文长度、类型、模型处理长文本的能力以及任务类型。

使用方法

使用LaRA数据集首先需要创建相应的conda环境并安装依赖。数据集的上下文和查询存储在`dataset`文件夹中，可以通过`query_gen.py`生成更多数据。评估过程中，可以使用提供的代码对开源模型和专有模型进行预测，并通过相应的脚本计算得分，存储在`evaluation/prediction`目录下。

背景与挑战

背景概述

LaRA数据集是在大型语言模型（LLM）快速发展的背景下创建的，该数据集旨在比较长语境LLM（LC LLMs）与检索增强生成（RAG）的性能。由阿里巴巴集团的研究人员于2025年提出，LaRA数据集涵盖了32K和128K的语境长度，三种自然发生的长文本类型，以及反映现实世界场景的四种基于语境的问答任务，共计2326个测试案例。该数据集的研究成果对设计有效的RAG与长语境LLM之间的路由系统具有指导意义，对自然语言处理领域产生了显著影响。

当前挑战

LaRA数据集面临的挑战主要在于：首先，需评估在LLM具备强大长文本处理能力的情况下，RAG是否仍然是处理长语境的必要方法；其次，构建数据集时，如何确保所选用的长文本类型和任务类型能够真实反映现实世界场景，以及如何平衡不同模型在处理长语境时的性能差异。此外，数据集的评价和预测过程需要适应不同模型和语境长度，对评估系统的设计和实施提出了较高的技术要求。

常用场景

经典使用场景

LaRA数据集作为衡量检索增强生成（RAG）与长上下文语言模型（LC LLMs）性能的基准，其经典使用场景在于为研究者和开发者提供一个公平比较这两种技术处理长文本上下文能力的平台。通过32K和128K两种不同长度的上下文，以及真实世界中的四种基于上下文的问答任务，LaRA能够评估不同模型在处理长文本时的表现，进而指导更有效的RAG与LC LLMs之间的路由系统设计。

实际应用

在实际应用中，LaRA数据集可用于评估和优化长文本处理系统，如搜索引擎、问答系统和文本摘要工具。通过使用LaRA进行模型训练和评估，开发者能够设计出更加精准和高效的长文本处理算法，以满足用户对长文本信息处理的实际需求。

衍生相关工作

基于LaRA数据集的研究成果，衍生出了一系列相关工作，包括对RAG与LC LLMs的进一步比较研究，以及针对特定任务类型和上下文长度的模型优化策略。这些工作不仅深化了对长文本处理技术的理解，也为长文本处理领域带来了新的研究方向和应用场景。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集