LongBench|长文本理解数据集|多任务学习数据集
收藏数据集概述
数据集名称
LongBench
数据集描述
LongBench 是一个用于评估大型语言模型在长上下文理解能力方面的双语、多任务基准。它包括中文和英文两种语言,涵盖了单文档问答、多文档问答、摘要、小样本学习、合成任务和代码完成等六大类别的二十一个不同任务。
数据集组成
- 任务类型:
- 多文档问答:3个英文任务,1个中文任务
- 单文档问答:3个英文任务,1个中文任务
- 摘要:3个英文任务,1个中文任务
- 小样本学习:3个英文任务,1个中文任务
- 合成任务:2个英文任务,1个中文任务
- 代码完成:2个代码任务
数据集规模
- 共包含14个英文任务,5个中文任务,2个代码任务。
- 平均任务长度范围从5k到15k。
- 总共包含4,750个测试数据。
数据集特点
- 采用全自动评估方法,以最低成本测量和评估模型的长上下文理解能力。
- 提供了LongBench-E,一个通过均匀采样构建的测试集,具有在0-4k、4k-8k和8k+长度区间内可比的数据量,用于分析模型在不同输入长度下的性能变化。
数据格式
所有数据遵循以下标准格式: json { "input": "任务的输入/命令,通常较短,如问答中的问题,小样本任务中的查询等", "context": "任务所需的长上下文,如文档、跨文件代码、小样本任务中的小样本示例", "answers": "所有正确答案的列表", "length": "前三项的总长度(中文按字符计,英文按单词计)", "dataset": "该数据所属的数据集名称", "language": "该数据的语言", "all_classes": "分类任务中的所有类别,非分类任务为null", "_id": "每条数据的随机id" }
评估方法
- 通过Hugging Face datasets库下载和加载数据。
- 使用
pred.py进行模型推理,并使用eval.py进行评估。 - 提供了基于检索和摘要的长上下文压缩评估代码。
评估结果
- 提供了在Zero-shot场景下,不同模型在主要任务类别上的平均得分。
- 提供了在不同数据集上的详细评估结果。
更新记录
- 2024/02/01:发布了LongBench-Chat,首个真实世界长上下文评估基准(10k-100k输入长度)。
- 2023/10/30:发布了新的ChatGLM3-6B-32k聊天模型,擅长长文档问答、推理和摘要。
- 2023/08/29:发布了LongBench论文,并更新了数据集,增加了MultiNews和SAMSum任务,调整了数据长度分布,公开了所有评估代码。
引用
@article{bai2023longbench, title={LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding}, author={Bai, Yushi and Lv, Xin and Zhang, Jiajie and Lyu, Hongchang and Tang, Jiankai and Huang, Zhidian and Du, Zhengxiao and Liu, Xiao and Zeng, Aohan and Hou, Lei and Dong, Yuxiao and Tang, Jie and Li, Juanzi}, journal={arXiv preprint arXiv:2308.14508}, year={2023} }

- 1LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding清华大学 中国科学院自动化研究所 · 2023年



