Ref-Long

Name: Ref-Long
Creator: 香港科技大学, 卡内基梅隆大学, 耶鲁大学
Published: 2025-07-13 14:17:53
License: 暂无描述

arXiv2025-07-13 更新2025-07-16 收录

下载链接：

https://github.com/wujunjie1998/Ref-Long

下载链接

链接失效反馈

官方服务：

资源简介：

Ref-Long数据集是一个用于评估长上下文语言模型（LCLMs）的长上下文引用能力的新型基准。数据集包含三个子集，从合成到真实场景，旨在评估LCLMs识别文档中特定键索引的能力。数据集共包含1800个不同的任务，每个任务要求LCLMs不仅从文档中检索特定的键，还必须识别所有引用该键的文档的索引。该数据集的创建旨在解决现有长上下文基准的局限性，并促进LCLMs在长上下文引用和理解能力方面的发展。

The Ref-Long dataset is a novel benchmark for evaluating the long-context reference capability of Long-Context Language Models (LCLMs). It includes three subsets spanning from synthetic to real-world scenarios, which are designed to assess LCLMs' ability to identify specific key indices within documents. The dataset contains a total of 1800 distinct tasks, where each task requires LCLMs to not only retrieve specific keys from the document but also recognize all indices of documents that reference these keys. The creation of this dataset aims to address the limitations of existing long-context benchmarks and promote the advancement of LCLMs in terms of their long-context reference and comprehension capabilities.

提供机构：

香港科技大学, 卡内基梅隆大学, 耶鲁大学

创建时间：

2025-07-13

原始信息汇总

Ref-Long数据集概述

数据集简介

数据集名称：Ref-Long
用途：用于评估长上下文语言模型（LCLMs）的长上下文引用能力
相关论文：Ref-Long: Benchmarking the Long-context Referencing Capability of Long-context Language Models

数据集内容

包含四个子集
每个子集提供两种提示格式：
- "ori"（原始格式）
- "before"（前置格式）

数据使用建议

建议用户首次评估模型时尝试两种提示格式
根据初步结果选择表现更好的格式进行后续实验

实验运行

获取模型结果

提供gpt4.sh脚本示例用于评估GPT-4o模型
可配置参数：
- datasets
- prompt_types
- task_types
- document_numbers

评估方法

使用evaluate.py脚本计算：
- 精确准确率（Ex Acc）
- F1分数
可配置参数：
- evaluate_model
- dataset
- prompt_types
- task_types
- document_numbers

作者信息

Junjie Wu
Gefei Gu
Yanan Zheng
Dit-Yan Yeung
Arman Cohan

搜集汇总

数据集介绍

构建方式

Ref-Long数据集的构建基于对长上下文语言模型（LCLMs）在长上下文引用任务中能力的系统性评估需求。该数据集通过设计三个子集，涵盖从合成到真实场景的不同情境，确保评估的全面性和多样性。具体构建过程中，研究人员从候选文档集中随机选取M篇文档并编号，然后从中抽样一个特定关键词k，要求模型识别所有引用k的文档编号。这一任务设计不仅强调关键词的检索，更注重关键词与上下文的关系理解。

特点

Ref-Long数据集的特点在于其专注于评估长上下文引用能力，而非简单的关键词检索。数据集包含三个子集，分别针对不同场景：合成数据（Ref-Long-A）、流畅上下文中的流畅关键词（Ref-Long-F）以及真实世界数据（Ref-Long-Paper）。这些子集的设计使得数据集能够全面评估模型在不同情境下的表现。此外，数据集的任务难度随输入长度的增加而提升，确保了评估的挑战性和可靠性。

使用方法

Ref-Long数据集的使用方法主要包括任务设置和评估指标。在任务设置中，模型需要根据给定的长上下文输入和查询关键词，输出所有引用该关键词的文档编号。评估采用精确匹配准确率（Ex Acc）和F1分数作为主要指标，确保评估的客观性和全面性。此外，数据集还支持通过调整查询格式和引入人类策略等方法，进一步探究模型在长上下文引用任务中的表现和局限性。

背景与挑战

背景概述

Ref-Long数据集由香港科技大学、卡内基梅隆大学和耶鲁大学的研究团队于2025年提出，旨在评估长上下文语言模型（LCLMs）的长上下文引用能力。该数据集通过设计需要模型在长文档中定位特定关键字的索引任务，填补了现有长上下文基准测试在引用能力评估上的空白。其创新性任务设计（如结合合成与真实场景的三类子集）和实验分析（涵盖13种LCLMs）为长上下文理解领域提供了重要基准，揭示了GPT-4o等先进模型在此类任务中的显著缺陷。

当前挑战

Ref-Long面临的挑战主要体现在两方面：领域问题层面，现有长上下文基准测试多关注简单检索或合成任务，难以评估模型对关键字与上下文关系的深层理解；构建层面需平衡任务复杂度与人工标注成本，例如在真实场景数据（如论文引用）中精确标注引用位置需克服文档长度差异和语义干扰。此外，实验显示LCLMs在输入长度超过40K时准确率骤降，暴露了当前模型处理长距离依赖的固有瓶颈。

常用场景

经典使用场景

Ref-Long数据集专为评估长上下文语言模型（LCLMs）的引用能力而设计，其经典使用场景包括要求模型在长文档中准确识别并引用特定关键词所在的文档索引。例如，在法律或金融领域，模型需要快速定位相关法律条款或财务报告中的具体数据，这种能力对于实际应用至关重要。

衍生相关工作

Ref-Long的推出激发了多项相关研究，特别是在长上下文语言模型的优化和基准测试设计方面。例如，基于Ref-Long的任务设计，研究者们开发了更多针对模型引用能力的评估方法，并探索了通过微调和提示工程提升模型性能的途径。这些工作进一步推动了长上下文语言模型的发展和应用。

数据集最近研究