大模型长文本理解能力评测数据集
收藏魔搭社区2026-05-31 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/ZhipuAI/LongBench
下载链接
链接失效反馈官方服务:
资源简介:
A Bilingual, Multitask Benchmark for Long Context Understanding
面向长上下文理解的双语多任务基准评测集
提供机构:
maas
创建时间:
2023-08-01
搜集汇总
数据集介绍

背景与挑战
背景概述
LongBench是一个用于评估大语言模型长文本理解能力的双语多任务基准数据集,涵盖中英文的六类二十一个任务,包括单文档问答、多文档问答、摘要等关键应用场景。它采用全自动评估方法,包含4,750个测试数据,平均长度在5k到15k之间,并提供了LongBench-E子集以分析模型在不同输入长度下的性能。
以上内容由遇见数据集搜集并总结生成



