Loong
收藏arXiv2024-06-25 更新2024-06-27 收录
下载链接:
https://github.com/MozerWang/Loong
下载链接
链接失效反馈官方服务:
资源简介:
Loong是由中国科学院自动化研究所创建的长期上下文理解评估基准,专注于通过多文档问答测试大型语言模型(LLMs)的长上下文能力。该数据集包含1600个测试实例,涵盖金融报告、法律案件和学术论文三大领域,支持中英文双语。Loong引入了四种任务类型:聚焦定位、比较、聚类和推理链,旨在全面评估LLMs在处理长文档时的性能。数据集创建过程中,所有实例均由GPT-4o和人工进行新注释和质量检查,确保数据质量。Loong的应用领域广泛,特别是在需要深入分析多文档的复杂任务中,如金融分析和法律案件研究,旨在解决现有基准与实际应用场景不符的问题。
Loong is a long-context understanding evaluation benchmark created by the Institute of Automation, Chinese Academy of Sciences, which focuses on evaluating the long-context capabilities of large language models (LLMs) through multi-document question answering. This dataset contains 1600 test instances covering three major domains: financial reports, legal cases, and academic papers, and supports both Chinese and English languages. Loong introduces four task types: focused localization, comparison, clustering, and chain-of-thought reasoning, aiming to comprehensively assess the performance of LLMs when processing long documents. During the dataset construction process, all instances were newly annotated and quality-checked by GPT-4o and human annotators to ensure data quality. Loong has broad application scenarios, especially in complex tasks requiring in-depth analysis of multiple documents such as financial analysis and legal case research, and it aims to address the mismatch between existing benchmarks and real-world application scenarios.
提供机构:
中国科学院自动化研究所
创建时间:
2024-06-25
原始信息汇总
数据集概述
本数据集名为 Loong,是一个用于评估长上下文语言模型(LLMs)在扩展多文档问答(QA)任务中的性能的基准。Loong 包含以下特点:
- 文档数量与场景:每个测试实例平均包含 11 个文档,涵盖三个真实世界场景,包括 金融报告、法律案件 和 学术论文,支持中英文。
- 评估任务:引入四种新的评估任务,包括 焦点定位、比较、聚类 和 推理链,以促进对长上下文理解的更真实和全面的评估。
- 输入长度与任务难度:支持不同长度的输入(如 10K-50K、50K-100K、100K-200K、超过 200K)和多样化的任务难度,允许对 LLMs 在不同上下文长度和任务复杂性上的细粒度评估。
评估任务展示
Loong 的四个评估任务展示如下:
- 焦点定位:定位证据。
- 比较:定位并比较证据。
- 聚类:定位并聚类证据为组。
- 推理链:定位并沿着逻辑链推理。
最新消息
[2024-07-03]:代码和基准已发布。[2024-06-25]:代码正在完善中,计划在未来一两周内发布评估代码和基准。
排行榜
以下是不同模型在 Loong 数据集上的性能表现:
总体结果
| 模型 | 声明长度 | 焦点定位 (Avg Scores, Perfect Rate) | 比较 (Avg Scores, Perfect Rate) | 聚类 (Avg Scores, Perfect Rate) | 推理链 (Avg Scores, Perfect Rate) | 总体 (Avg Scores, Perfect Rate) |
|---|---|---|---|---|---|---|
| Gemini-1.5-pro | 1000K | 75.02, 0.56 | 49.94, 0.27 | 44.10, 0.09 | 64.97, 0.37 | 55.37, 0.27 |
| GPT-4o | 128K | 73.95, 0.62 | 50.50, 0.28 | 44.29, 0.09 | 57.95, 0.28 | 53.47, 0.26 |
| Claude3.5-Sonnet | 200K | 58.45, 0.49 | 54.21, 0.35 | 45.77, 0.07 | 43.92, 0.25 | 48.85, 0.23 |
| Claude3-Haiku | 200K | 68.68, 0.59 | 42.10, 0.21 | 35.04, 0.02 | 47.59, 0.17 | 44.88, 0.19 |
| Qwen2-72B-Instruct | 128K | 54.17, 0.36 | 42.38, 0.20 | 36.71, 0.04 | 47.76, 0.18 | 43.29, 0.15 |
| GLM4-Chat | 1000K | 57.35, 0.47 | 40.38, 0.20 | 28.52, 0.02 | 39.94, 0.16 | 38.31, 0.16 |
| Kimi-Chat | 200K | 60.98, 0.50 | 34.74, 0.13 | 28.76, 0.04 | 38.52, 0.15 | 37.49, 0.16 |
不同长度输入的结果
Set1 (10K-50K)
| 模型 | 声明长度 | 焦点定位 (Avg Scores, Perfect Rate) | 比较 (Avg Scores, Perfect Rate) | 聚类 (Avg Scores, Perfect Rate) | 推理链 (Avg Scores, Perfect Rate) | 总体 (Avg Scores, Perfect Rate) |
|---|---|---|---|---|---|---|
| GPT-4o | 128K | 85.67, 0.81 | 64.27, 0.33 | 57.01, 0.24 | 81.58, 0.55 | 70.40, 0.44 |
| Claude3.5-Sonnet | 200K | 60.85, 0.55 | 69.07, 0.47 | 58.63, 0.13 | 68.57, 0.50 | 63.69, 0.37 |
| Gemini-1.5-pro | 1000K | 75.00, 0.60 | 54.88, 0.28 | 56.15, 0.23 | 70.64, 0.37 | 63.36, 0.34 |
| Qwen2-72B-Instruct | 200K | 68.49, 0.55 | 60.60, 0.37 | 47.08, 0.08 | 70.39, 0.36 | 60.11, 0.29 |
| Claude3-Haiku | 200K | 60.94, 0.55 | 59.97, 0.40 | 45.53, 0.04 | 66.85, 0.34 | 57.14, 0.28 |
| Kimi-Chat | 200K | 81.11, 0.74 | 46.70, 0.20 | 47.84, 0.07 | 53.77, 0.17 | 55.02, 0.24 |
| GLM4-9B-Chat | 1000K | 63.11, 0.53 | 54.10, 0.27 | 39.50, 0.08 | 56.32, 0.28 | 51.43, 0.25 |
Set2 (50K-100K)
| 模型 | 声明长度 | 焦点定位 (Avg Scores, Perfect Rate) | 比较 (Avg Scores, Perfect Rate) | 聚类 (Avg Scores, Perfect Rate) | 推理链 (Avg Scores, Perfect Rate) | 总体 (Avg Scores, Perfect Rate) |
|---|---|---|---|---|---|---|
| GPT-4o | 128K | 86.76, 0.72 | 59.81, 0.40 | 47.83, 0.11 | 62.09, 0.34 | 58.38, 0.29 |
| Gemini-1.5-pro | 1000K | 76.50, 0.57 | 54.51, 0.34 | 44.58, 0.09 | 64.87, 0.34 | 55.56, 0.26 |
| Claude3.5-Sonnet | 200K | 63.83, 0.53 | 58.90, 0.39 | 50.96, 0.10 | 46.09, 0.26 | 52.73, 0.24 |
| Qwen2-72B-Instruct | 128K | 64.53, 0.43 | 42.60, 0.21 | 38.52, 0.05 | 51.18, 0.20 | 45.71, 0.17 |
| Claude3-Haiku | 200K | 73.71, 0.66 | 41.90, 0.22 | 36.18, 0.02 | 50.20, 0.15 | 45.45, 0.17 |
| Kimi-Chat | 200K | 72.82, 0.52 | 46.77, 0.21 | 33.46, 0.06 | 40.51, 0.15 | 42.40, 0.16 |
| GLM4-9B-Chat | 1000K | 65.04, 0.54 | 41.80, 0.23 | 30.72, 0.02 | 42.34, 0.17 | 40.19, 0.17 |
Set3 (100K-200K)
| 模型 | 声明长度 | 焦点定位 (Avg Scores, Perfect Rate) | 比较 (Avg Scores, Perfect Rate) | 聚类 (Avg Scores, Perfect Rate) | 推理链 (Avg Scores, Perfect Rate) | 总体 (Avg Scores, Perfect Rate) |
|---|---|---|---|---|---|---|
| Gemini-1.5-pro | 1000K | 81.25, 0.56 | 44.66, 0.20 | 39.90, 0.05 | 58.38, 0.36 | 52.05, 0.24 |
| GPT-4o | 128K | 74.84, 0.65 | 42.40, 0.21 | 38.70, 0.04 | 45.06, 0.09 | 46.95, 0.19 |
| Claude3.5-Sonnet | 200K | 65.36, 0.56 | 42.40, 0.21 | 38.70, 0.04 | 45.06, 0.09 | 46.95, 0.19 |
搜集汇总
数据集介绍

构建方式
Loong数据集的构建旨在模拟真实场景下的长文本理解任务,通过收集金融报告、法律案例和学术论文等领域的文档,构建了一个包含1600个测试实例的问答格式数据集。每个测试实例平均包含11个文档,并根据不同的上下文长度分为四个集合。此外,Loong引入了四种类型的任务:聚光灯定位、比较、聚类和推理链,以更全面地评估LLM的长文本理解能力。
特点
Loong数据集的特点在于其真实性和复杂性。首先,该数据集的文档均来自真实世界的多文档场景,如金融报告、法律案例和学术论文,更贴近实际应用场景。其次,数据集中的证据分布在多个文档中,要求模型对每个文档都有深入理解,不能忽略任何一个文档。此外,Loong提供了不同长度的输入和不同难度的评估任务,使得对LLM的长文本理解能力可以进行更细致的评估。
使用方法
Loong数据集的使用方法主要包括以下几个方面:1)选择合适的LLM模型进行评估;2)根据模型的上下文窗口大小,选择合适的长度集合进行测试;3)使用GPT-4作为评估者,对模型的输出进行评估;4)根据评估结果,分析模型的优缺点,并针对性地进行改进。
背景与挑战
背景概述
近年来,长上下文语言模型(LLMs)因其在大规模上下文窗口方面的建模能力而备受关注,使得LLMs在处理复杂任务时能够深入分析长文本。然而,现有的评估长上下文LLMs的基准测试却相对滞后。为了弥补这一差距,Wang等研究人员提出了一个名为Loong的新型长上下文基准测试,旨在通过扩展的多文档问答(QA)任务来评估LLMs在处理长上下文方面的能力。Loong数据集的创建时间在2024年6月之前,由多个研究人员和机构合作完成,包括中国科学院自动化研究所、中国科学院深圳先进技术研究院、中国科学院大学人工智能学院以及阿里巴巴集团。该数据集的核心研究问题是如何评估LLMs在长上下文情境下的理解能力,并对相关领域产生了重要的影响,为长上下文LLMs的评估提供了一个新的基准。
当前挑战
Loong数据集面临的主要挑战包括:1)所解决的领域问题:Loong旨在解决现有基准测试中存在的证据分布集中化问题,通过将证据分散在多文档长上下文中,更好地测试LLMs的长上下文建模能力。2)构建过程中所遇到的挑战:Loong数据集的构建过程中,研究人员面临着数据收集、标注和质量控制等方面的挑战。数据收集需要满足多个标准,如时效性、可访问性、适当长度、可解析性、可分类性和权威性。标注过程需要对长文本进行压缩和信息提取,以确保标注的准确性和效率。此外,为了确保数据集的质量,研究人员采用了多种质量控制方法,包括证据召回、自检和人工检查。
常用场景
经典使用场景
Loong数据集被广泛应用于评估大型语言模型(LLMs)在处理长文本上下文时的能力。它通过扩展的多文档问答(QA)任务来模拟现实场景,确保每个文档都与最终答案相关,从而避免了现有基准中使用的无关噪声文本。Loong引入了四种任务类型,包括Spotlight Locating、Comparison、Clustering和Chain of Reasoning,以促进对长文本理解的更真实和全面的评估。这些任务涵盖了从知识定位、多源信息比较到基于特定条件的聚类以及逻辑推理等多种能力,使得Loong成为评估LLMs长文本处理能力的全面工具。
衍生相关工作
Loong数据集的提出促进了长文本上下文理解和评估领域的研究。它不仅为LLMs的长文本建模能力提供了一个新的评估基准,而且还为长文本上下文理解和评估的研究提供了新的思路和方法。Loong的提出也促进了检索增强生成(RAG)等技术在长文本上下文理解和评估中的应用研究。此外,Loong还为长文本上下文理解和评估的研究提供了新的数据集和评估方法,从而为该领域的研究提供了新的动力和方向。
数据集最近研究
最新研究方向
Loong数据集旨在评估大型语言模型(LLM)在处理长上下文时的能力。该数据集通过多文档问答(QA)任务,将证据分散在多个相关文档中,要求模型全面理解长上下文。Loong引入了四种任务类型,包括Spotlight Locating、Comparison、Clustering和Chain of Reasoning,以更真实、全面地评估LLM的长上下文理解能力。实验结果表明,现有LLM在Loong数据集上的表现仍有待提高,这表明LLM的长上下文建模能力仍有很大提升空间。此外,Loong还探索了检索增强生成(RAG)对模型性能的影响,发现RAG并不能有效提高模型在Loong上的表现,这表明Loong更注重评估模型对长上下文复杂推理和综合分析的能力。
相关研究论文
- 1Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA中国科学院自动化研究所 · 2024年
以上内容由遇见数据集搜集并总结生成



