LongBench-Pro
收藏LongBench Pro 数据集概述
数据集基本信息
- 数据集名称:LongBench Pro
- 数据集地址:https://huggingface.co/datasets/caskcsg/LongBench-Pro
- 许可证:apache-2.0
- 语言:英语(en)、中文(zh)
- 数据规模:1K<n<10K(包含1,500个样本)
- 任务类别:问答、文本分类、表格问答、摘要
- 标签:长上下文、现实性、综合性
数据集核心描述
LongBench Pro是一个更现实、更全面的双语长上下文评估基准。它完全基于真实、自然的长文档构建,包含11个主要任务和25个次要任务,涵盖了现有基准评估的所有长上下文能力。该数据集采用多样化的评估指标,能够更精细地衡量模型能力,并提供平衡的英语和中文双语样本。
多维分类体系
LongBench Pro引入了一个多维分类体系,以支持在不同操作条件下对模型进行全面评估:
- 上下文要求:完整上下文(全局整合)与部分上下文(局部检索)
- 长度:从8k到256k令牌的六个均匀分布长度,用于分析缩放行为
- 难度:从简单到极端的四个级别,根据模型性能定义
数据格式
数据组织格式如下: json { "id": "样本ID:每个样本唯一。", "context": "长上下文:涵盖新闻、医学、科学、文学、法律和教育等领域的14种文本类型,形式包括报告、表格、代码、对话、列表和JSON等。", "language": "样本语言:英语或中文。", "token_length": "样本令牌长度:8k、16k、32k、64k、128k或256k(使用Qwen分词器计算)", "primary_task": "主要任务类型:11种类型。", "secondary_task": "次要任务类型:25种类型。", "contextual_requirement": "上下文要求:完整或部分。", "question_nonthinking": "问题的非思考提示:需要直接回答。", "question_thinking": "问题的思考提示:先思考,再回答。", "answer": ["构成答案的组件列表。"], "difficulty": "样本难度:简单、中等、困难或极端。" }
使用方式
加载数据
可以使用以下代码下载和加载LongBench Pro数据: python from datasets import load_dataset dataset = load_dataset(caskcsg/LongBench-Pro, split=test)
评估
请参考GitHub仓库(https://github.com/caskcsg/longcontext/tree/main/LongBench-Pro)进行自动评估。
相关资源
- 代码仓库:https://github.com/caskcsg/longcontext/tree/main/LongBench-Pro
- 排行榜:https://huggingface.co/spaces/caskcsg/LongBench-Pro-Leaderboard
- 论文:即将发布
- 引用:即将发布




