LongBench-Pro

Hugging Face2025-12-14 更新2025-12-15 收录

下载链接：

https://huggingface.co/datasets/caskcsg/LongBench-Pro

下载链接

链接失效反馈

官方服务：

资源简介：

LongBench Pro是一个更真实和全面的双语长上下文评估基准，包含1,500个样本，完全基于真实的自然长文档构建，涵盖11个主要任务和25个次要任务，评估现有基准所评估的所有长上下文能力。它采用多样化的评估指标，能够更细粒度地测量模型能力，并提供平衡的英文和中文双语样本集。此外，LongBench Pro引入了多维分类法，支持在不同操作条件下对模型进行全面评估，包括上下文要求（全局整合与局部检索）、长度（从8k到256k令牌的六种均匀分布长度）和难度（从易到极难的四个级别）。

LongBench Pro is a more realistic and comprehensive bilingual long-context evaluation benchmark. It contains 1,500 samples entirely constructed from real natural long documents, covering 11 primary tasks and 25 secondary tasks, and evaluates all long-context capabilities assessed by existing benchmarks. It adopts diverse evaluation metrics to enable finer-grained measurement of model capabilities, and provides a balanced bilingual sample set of English and Chinese. Moreover, LongBench Pro introduces a multi-dimensional taxonomy, supporting comprehensive evaluation of models under different operating conditions, including context requirements (global integration vs. local retrieval), length (six uniformly distributed lengths ranging from 8k to 256k tokens), and difficulty (four levels from easy to extremely hard).

创建时间：

2025-12-12

原始信息汇总

LongBench Pro 数据集概述

数据集基本信息

数据集名称：LongBench Pro
数据集地址：https://huggingface.co/datasets/caskcsg/LongBench-Pro
许可证：apache-2.0
语言：英语（en）、中文（zh）
数据规模：1K<n<10K（包含1,500个样本）
任务类别：问答、文本分类、表格问答、摘要
标签：长上下文、现实性、综合性

数据集核心描述

LongBench Pro是一个更现实、更全面的双语长上下文评估基准。它完全基于真实、自然的长文档构建，包含11个主要任务和25个次要任务，涵盖了现有基准评估的所有长上下文能力。该数据集采用多样化的评估指标，能够更精细地衡量模型能力，并提供平衡的英语和中文双语样本。

多维分类体系

LongBench Pro引入了一个多维分类体系，以支持在不同操作条件下对模型进行全面评估：

上下文要求：完整上下文（全局整合）与部分上下文（局部检索）
长度：从8k到256k令牌的六个均匀分布长度，用于分析缩放行为
难度：从简单到极端的四个级别，根据模型性能定义

数据格式

数据组织格式如下： json { "id": "样本ID：每个样本唯一。", "context": "长上下文：涵盖新闻、医学、科学、文学、法律和教育等领域的14种文本类型，形式包括报告、表格、代码、对话、列表和JSON等。", "language": "样本语言：英语或中文。", "token_length": "样本令牌长度：8k、16k、32k、64k、128k或256k（使用Qwen分词器计算）", "primary_task": "主要任务类型：11种类型。", "secondary_task": "次要任务类型：25种类型。", "contextual_requirement": "上下文要求：完整或部分。", "question_nonthinking": "问题的非思考提示：需要直接回答。", "question_thinking": "问题的思考提示：先思考，再回答。", "answer": ["构成答案的组件列表。"], "difficulty": "样本难度：简单、中等、困难或极端。" }

使用方式

加载数据

可以使用以下代码下载和加载LongBench Pro数据： python from datasets import load_dataset dataset = load_dataset(caskcsg/LongBench-Pro, split=test)

评估

请参考GitHub仓库（https://github.com/caskcsg/longcontext/tree/main/LongBench-Pro）进行自动评估。

相关资源

代码仓库：https://github.com/caskcsg/longcontext/tree/main/LongBench-Pro
排行榜：https://huggingface.co/spaces/caskcsg/LongBench-Pro-Leaderboard
论文：即将发布
引用：即将发布

搜集汇总

数据集介绍

构建方式

在长上下文评估领域，LongBench-Pro数据集的构建体现了对真实性与全面性的追求。该数据集基于1500个样本，全部源自真实的自然长文档，覆盖新闻、医学、科学、文学、法律及教育等14个文本类型，并包含报告、表格、代码、对话等多种形式。构建过程中，数据集设计了11项主要任务和25项次要任务，全面涵盖现有基准所评估的长上下文能力。样本长度均匀分布在8k至256k令牌之间，并依据上下文需求分为全局整合与局部检索两类，同时根据模型表现定义了从易到极难的四个难度等级，确保了评估的多维性与细致性。

特点

LongBench-Pro的显著特点在于其双语平衡与多维分类体系。数据集提供了均衡的英文和中文样本，支持跨语言的长上下文能力评估。通过引入上下文需求、长度和难度三个维度的分类，它能够全面分析模型在不同操作条件下的表现，例如模型在全局整合与局部检索任务中的差异，以及随着上下文长度增加的能力扩展行为。多样化的评估指标进一步实现了对模型能力的细粒度测量，使该数据集在长上下文评估领域中更具现实意义与综合性。

使用方法

使用LongBench-Pro进行模型评估时，用户可通过Hugging Face的datasets库直接加载数据，具体操作为调用load_dataset函数并指定数据集名称与测试分割。数据格式以JSON结构组织，包含样本ID、上下文、语言、令牌长度、任务类型及难度等关键字段。评估过程需参考项目提供的GitHub仓库，其中包含自动化评估脚本，支持对模型在多种任务和难度级别上的性能进行系统化测试，从而实现对长上下文处理能力的深入分析与比较。

背景与挑战

背景概述

随着大型语言模型在长上下文处理能力上的快速发展，对模型性能的评估标准提出了更高要求。LongBench-Pro数据集由相关研究团队于近期构建，旨在提供一个更为真实和全面的双语长上下文评估基准。该数据集基于真实自然的长文档，涵盖新闻、医学、科学、文学、法律及教育等多个领域，包含11项主要任务和25项次要任务，全面覆盖现有基准所评估的长上下文能力。通过引入多维分类体系，如上下文需求、长度分布及难度分级，LongBench-Pro支持在不同操作条件下对模型进行细致评估，显著提升了长上下文评测的精确性与实用性，对推动自然语言处理领域的长文本理解研究具有重要影响力。

当前挑战

长上下文评估的核心挑战在于如何设计能够全面反映模型真实能力的任务，尤其是在处理全局整合与局部检索等不同上下文需求时。LongBench-Pro致力于解决现有基准在任务多样性、数据真实性及评估粒度方面的不足，其构建过程中需克服多领域长文档的收集与标注困难，确保双语样本的平衡性与质量，同时设计合理的难度分级体系以准确衡量模型性能。此外，数据集还需统一不同长度（从8k至256k标记）的样本分布，并适配多样化的评估指标，这些挑战共同构成了长上下文评测领域的关键难点。

常用场景

经典使用场景

在长上下文自然语言处理领域，LongBench-Pro数据集被广泛应用于评估模型处理超长文本的能力。其经典使用场景包括对大型语言模型在问答、文本分类、表格问答和摘要等任务上的系统性测试，通过涵盖新闻、医学、科学、文学、法律和教育等多个领域的真实长文档，模拟了现实世界中的复杂信息处理需求。数据集设计了从8k到256k令牌的六种长度级别，以及从简单到极端的四种难度层次，为研究者提供了细致入微的性能分析框架。

解决学术问题

LongBench-Pro解决了长上下文建模中常见的学术研究问题，如模型在全局信息整合与局部检索之间的平衡能力，以及在不同文本长度下的扩展行为分析。通过引入全上下文与部分上下文的分类，数据集帮助研究者探索模型在信息融合与精准定位方面的表现。其双语样本设计进一步促进了跨语言长文本理解的研究，填补了现有基准在真实性和全面性上的不足，为长上下文模型的标准化评估提供了可靠依据。

衍生相关工作

LongBench-Pro衍生了多项经典研究工作，推动了长上下文评估基准的发展。基于其多维分类体系，研究者开发了更精细的模型能力分析工具，如针对不同难度级别的自适应评估方法。数据集还被用于训练和验证一系列先进的长文本模型，促进了如上下文窗口扩展、注意力机制优化等技术的创新。此外，其开源代码库和排行榜激励了社区在长上下文任务上的持续探索，为后续基准的构建提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集