Loong

Name: Loong
Creator: 中国科学院自动化研究所
Published: 2024-06-25 17:42:56
License: 暂无描述

arXiv2024-06-25 更新2024-06-27 收录

下载链接：

https://github.com/MozerWang/Loong

下载链接

链接失效反馈

官方服务：

资源简介：

Loong是由中国科学院自动化研究所创建的长期上下文理解评估基准，专注于通过多文档问答测试大型语言模型（LLMs）的长上下文能力。该数据集包含1600个测试实例，涵盖金融报告、法律案件和学术论文三大领域，支持中英文双语。Loong引入了四种任务类型：聚焦定位、比较、聚类和推理链，旨在全面评估LLMs在处理长文档时的性能。数据集创建过程中，所有实例均由GPT-4o和人工进行新注释和质量检查，确保数据质量。Loong的应用领域广泛，特别是在需要深入分析多文档的复杂任务中，如金融分析和法律案件研究，旨在解决现有基准与实际应用场景不符的问题。

Loong is a long-context understanding evaluation benchmark created by the Institute of Automation, Chinese Academy of Sciences, which focuses on evaluating the long-context capabilities of large language models (LLMs) through multi-document question answering. This dataset contains 1600 test instances covering three major domains: financial reports, legal cases, and academic papers, and supports both Chinese and English languages. Loong introduces four task types: focused localization, comparison, clustering, and chain-of-thought reasoning, aiming to comprehensively assess the performance of LLMs when processing long documents. During the dataset construction process, all instances were newly annotated and quality-checked by GPT-4o and human annotators to ensure data quality. Loong has broad application scenarios, especially in complex tasks requiring in-depth analysis of multiple documents such as financial analysis and legal case research, and it aims to address the mismatch between existing benchmarks and real-world application scenarios.

提供机构：

中国科学院自动化研究所

创建时间：

2024-06-25

原始信息汇总

数据集概述

本数据集名为 Loong，是一个用于评估长上下文语言模型（LLMs）在扩展多文档问答（QA）任务中的性能的基准。Loong 包含以下特点：

文档数量与场景：每个测试实例平均包含 11 个文档，涵盖三个真实世界场景，包括 金融报告、法律案件 和 学术论文，支持中英文。
评估任务：引入四种新的评估任务，包括 焦点定位、比较、聚类和 推理链，以促进对长上下文理解的更真实和全面的评估。
输入长度与任务难度：支持不同长度的输入（如 10K-50K、50K-100K、100K-200K、超过 200K）和多样化的任务难度，允许对 LLMs 在不同上下文长度和任务复杂性上的细粒度评估。

评估任务展示

Loong 的四个评估任务展示如下：

焦点定位：定位证据。
比较：定位并比较证据。
聚类：定位并聚类证据为组。
推理链：定位并沿着逻辑链推理。

排行榜

以下是不同模型在 Loong 数据集上的性能表现：

总体结果

模型	声明长度	焦点定位 (Avg Scores, Perfect Rate)	比较 (Avg Scores, Perfect Rate)	聚类 (Avg Scores, Perfect Rate)	推理链 (Avg Scores, Perfect Rate)	总体 (Avg Scores, Perfect Rate)
Gemini-1.5-pro	1000K	75.02, 0.56	49.94, 0.27	44.10, 0.09	64.97, 0.37	55.37, 0.27
GPT-4o	128K	73.95, 0.62	50.50, 0.28	44.29, 0.09	57.95, 0.28	53.47, 0.26
Claude3.5-Sonnet	200K	58.45, 0.49	54.21, 0.35	45.77, 0.07	43.92, 0.25	48.85, 0.23
Claude3-Haiku	200K	68.68, 0.59	42.10, 0.21	35.04, 0.02	47.59, 0.17	44.88, 0.19
Qwen2-72B-Instruct	128K	54.17, 0.36	42.38, 0.20	36.71, 0.04	47.76, 0.18	43.29, 0.15
GLM4-Chat	1000K	57.35, 0.47	40.38, 0.20	28.52, 0.02	39.94, 0.16	38.31, 0.16
Kimi-Chat	200K	60.98, 0.50	34.74, 0.13	28.76, 0.04	38.52, 0.15	37.49, 0.16

不同长度输入的结果

Set1 (10K-50K)

模型	声明长度	焦点定位 (Avg Scores, Perfect Rate)	比较 (Avg Scores, Perfect Rate)	聚类 (Avg Scores, Perfect Rate)	推理链 (Avg Scores, Perfect Rate)	总体 (Avg Scores, Perfect Rate)
GPT-4o	128K	85.67, 0.81	64.27, 0.33	57.01, 0.24	81.58, 0.55	70.40, 0.44
Claude3.5-Sonnet	200K	60.85, 0.55	69.07, 0.47	58.63, 0.13	68.57, 0.50	63.69, 0.37
Gemini-1.5-pro	1000K	75.00, 0.60	54.88, 0.28	56.15, 0.23	70.64, 0.37	63.36, 0.34
Qwen2-72B-Instruct	200K	68.49, 0.55	60.60, 0.37	47.08, 0.08	70.39, 0.36	60.11, 0.29
Claude3-Haiku	200K	60.94, 0.55	59.97, 0.40	45.53, 0.04	66.85, 0.34	57.14, 0.28
Kimi-Chat	200K	81.11, 0.74	46.70, 0.20	47.84, 0.07	53.77, 0.17	55.02, 0.24
GLM4-9B-Chat	1000K	63.11, 0.53	54.10, 0.27	39.50, 0.08	56.32, 0.28	51.43, 0.25

Set2 (50K-100K)

模型	声明长度	焦点定位 (Avg Scores, Perfect Rate)	比较 (Avg Scores, Perfect Rate)	聚类 (Avg Scores, Perfect Rate)	推理链 (Avg Scores, Perfect Rate)	总体 (Avg Scores, Perfect Rate)
GPT-4o	128K	86.76, 0.72	59.81, 0.40	47.83, 0.11	62.09, 0.34	58.38, 0.29
Gemini-1.5-pro	1000K	76.50, 0.57	54.51, 0.34	44.58, 0.09	64.87, 0.34	55.56, 0.26
Claude3.5-Sonnet	200K	63.83, 0.53	58.90, 0.39	50.96, 0.10	46.09, 0.26	52.73, 0.24
Qwen2-72B-Instruct	128K	64.53, 0.43	42.60, 0.21	38.52, 0.05	51.18, 0.20	45.71, 0.17
Claude3-Haiku	200K	73.71, 0.66	41.90, 0.22	36.18, 0.02	50.20, 0.15	45.45, 0.17
Kimi-Chat	200K	72.82, 0.52	46.77, 0.21	33.46, 0.06	40.51, 0.15	42.40, 0.16
GLM4-9B-Chat	1000K	65.04, 0.54	41.80, 0.23	30.72, 0.02	42.34, 0.17	40.19, 0.17

Set3 (100K-200K)

模型	声明长度	焦点定位 (Avg Scores, Perfect Rate)	比较 (Avg Scores, Perfect Rate)	聚类 (Avg Scores, Perfect Rate)	推理链 (Avg Scores, Perfect Rate)	总体 (Avg Scores, Perfect Rate)
Gemini-1.5-pro	1000K	81.25, 0.56	44.66, 0.20	39.90, 0.05	58.38, 0.36	52.05, 0.24
GPT-4o	128K	74.84, 0.65	42.40, 0.21	38.70, 0.04	45.06, 0.09	46.95, 0.19
Claude3.5-Sonnet	200K	65.36, 0.56	42.40, 0.21	38.70, 0.04	45.06, 0.09	46.95, 0.19

搜集汇总

数据集介绍

构建方式

Loong数据集的构建旨在模拟真实场景下的长文本理解任务，通过收集金融报告、法律案例和学术论文等领域的文档，构建了一个包含1600个测试实例的问答格式数据集。每个测试实例平均包含11个文档，并根据不同的上下文长度分为四个集合。此外，Loong引入了四种类型的任务：聚光灯定位、比较、聚类和推理链，以更全面地评估LLM的长文本理解能力。

特点

Loong数据集的特点在于其真实性和复杂性。首先，该数据集的文档均来自真实世界的多文档场景，如金融报告、法律案例和学术论文，更贴近实际应用场景。其次，数据集中的证据分布在多个文档中，要求模型对每个文档都有深入理解，不能忽略任何一个文档。此外，Loong提供了不同长度的输入和不同难度的评估任务，使得对LLM的长文本理解能力可以进行更细致的评估。

使用方法

Loong数据集的使用方法主要包括以下几个方面：1）选择合适的LLM模型进行评估；2）根据模型的上下文窗口大小，选择合适的长度集合进行测试；3）使用GPT-4作为评估者，对模型的输出进行评估；4）根据评估结果，分析模型的优缺点，并针对性地进行改进。

背景与挑战

背景概述

近年来，长上下文语言模型（LLMs）因其在大规模上下文窗口方面的建模能力而备受关注，使得LLMs在处理复杂任务时能够深入分析长文本。然而，现有的评估长上下文LLMs的基准测试却相对滞后。为了弥补这一差距，Wang等研究人员提出了一个名为Loong的新型长上下文基准测试，旨在通过扩展的多文档问答（QA）任务来评估LLMs在处理长上下文方面的能力。Loong数据集的创建时间在2024年6月之前，由多个研究人员和机构合作完成，包括中国科学院自动化研究所、中国科学院深圳先进技术研究院、中国科学院大学人工智能学院以及阿里巴巴集团。该数据集的核心研究问题是如何评估LLMs在长上下文情境下的理解能力，并对相关领域产生了重要的影响，为长上下文LLMs的评估提供了一个新的基准。

当前挑战

Loong数据集面临的主要挑战包括：1)所解决的领域问题：Loong旨在解决现有基准测试中存在的证据分布集中化问题，通过将证据分散在多文档长上下文中，更好地测试LLMs的长上下文建模能力。2)构建过程中所遇到的挑战：Loong数据集的构建过程中，研究人员面临着数据收集、标注和质量控制等方面的挑战。数据收集需要满足多个标准，如时效性、可访问性、适当长度、可解析性、可分类性和权威性。标注过程需要对长文本进行压缩和信息提取，以确保标注的准确性和效率。此外，为了确保数据集的质量，研究人员采用了多种质量控制方法，包括证据召回、自检和人工检查。

常用场景

经典使用场景

Loong数据集被广泛应用于评估大型语言模型（LLMs）在处理长文本上下文时的能力。它通过扩展的多文档问答（QA）任务来模拟现实场景，确保每个文档都与最终答案相关，从而避免了现有基准中使用的无关噪声文本。Loong引入了四种任务类型，包括Spotlight Locating、Comparison、Clustering和Chain of Reasoning，以促进对长文本理解的更真实和全面的评估。这些任务涵盖了从知识定位、多源信息比较到基于特定条件的聚类以及逻辑推理等多种能力，使得Loong成为评估LLMs长文本处理能力的全面工具。

衍生相关工作

Loong数据集的提出促进了长文本上下文理解和评估领域的研究。它不仅为LLMs的长文本建模能力提供了一个新的评估基准，而且还为长文本上下文理解和评估的研究提供了新的思路和方法。Loong的提出也促进了检索增强生成（RAG）等技术在长文本上下文理解和评估中的应用研究。此外，Loong还为长文本上下文理解和评估的研究提供了新的数据集和评估方法，从而为该领域的研究提供了新的动力和方向。

数据集最近研究