five

bzantium/LongBench

收藏
Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bzantium/LongBench
下载链接
链接失效反馈
官方服务:
资源简介:
LongBench是首个用于双语、多任务和全面评估大语言模型长上下文理解能力的基准。它包含中英文两种语言,涵盖六类主要任务和二十一个不同任务,涉及单文档问答、多文档问答、摘要生成、少样本学习、合成任务和代码补全等关键长文本应用场景。数据集采用全自动评估方法,以最低成本衡量和评估模型的长上下文理解能力。LongBench包含14个英文任务、5个中文任务和2个代码任务,平均长度在5k到15k之间,共有4,750条测试数据。此外,还提供了LongBench-E测试集,其长度分布更均匀,用于分析模型在不同输入长度下的性能变化。

LongBench is the first benchmark for bilingual, multi-task, and comprehensive evaluation of long-context understanding capabilities of large language models (LLMs). It comprises six primary task categories and twenty-one distinct tasks, covering key long-text application scenarios including single-document question answering, multi-document question answering, summarization, few-shot learning, synthetic tasks, and code completion. The dataset employs a fully automatic evaluation framework to measure and evaluate the long-context understanding capabilities of models at minimal cost. LongBench contains 14 English tasks, 5 Chinese tasks, and 2 code tasks, with an average length ranging from 5k to 15k tokens and a total of 4,750 test instances. In addition, the LongBench-E test set is also provided, which features a more uniform length distribution and is utilized to analyze the performance variations of models across different input lengths.
提供机构:
bzantium
原始信息汇总

数据集概述

基本信息

  • 任务类别: 问答、文本生成、摘要、对话、文本分类
  • 语言: 英语、中文
  • 标签: 长上下文
  • 数据规模: 1K<n<10K

数据集介绍

LongBench 是一个用于评估大型语言模型长上下文理解能力的双语、多任务综合性基准。它包括中文和英文两种语言,涵盖了单文档问答、多文档问答、摘要、小样本学习、合成任务和代码完成等六大类共二十一个不同任务。

数据集组成

  • 任务数量: 14个英语任务、5个中文任务、2个代码任务
  • 平均长度: 大部分任务的平均长度在5k到15k之间
  • 总测试数据: 4,750条

数据格式

所有数据遵循以下标准格式: json { "input": "任务的输入/命令", "context": "任务所需的长上下文", "answers": "所有正确答案的列表", "length": "前三项的总长度", "dataset": "数据所属的数据集名称", "language": "数据的语言", "all_classes": "分类任务的所有类别,非分类任务为null", "_id": "每条数据的随机ID" }

任务统计

任务名称 任务类型 评估指标 平均长度 语言 样本数量
HotpotQA 多文档问答 F1 9,151 EN 200
2WikiMultihopQA 多文档问答 F1 4,887 EN 200
MuSiQue 多文档问答 F1 11,214 EN 200
DuReader 多文档问答 Rouge-L 15,768 ZH 200
MultiFieldQA-en 单文档问答 F1 4,559 EN 150
MultiFieldQA-zh 单文档问答 F1 6,701 ZH 200
NarrativeQA 单文档问答 F1 18,409 EN 200
Qasper 单文档问答 F1 3,619 EN 200
GovReport 摘要 Rouge-L 8,734 EN 200
QMSum 摘要 Rouge-L 10,614 EN 200
MultiNews 摘要 Rouge-L 2,113 EN 200
VCSUM 摘要 Rouge-L 15,380 ZH 200
TriviaQA 小样本 F1 8,209 EN 200
SAMSum 小样本 Rouge-L 6,258 EN 200
TREC 小样本 准确率 5,177 EN 200
LSHT 小样本 准确率 22,337 ZH 200
PassageRetrieval-en 合成 准确率 9,289 EN 200
PassageCount 合成 准确率 11,141 EN 200
PassageRetrieval-zh 合成 准确率 6,745 ZH 200
LCC 代码 编辑相似度 1,235 Python/C#/Java 500
RepoBench-P 代码 编辑相似度 4,206 Python/Java 500

任务描述

任务名称 任务描述
HotpotQA 基于多个给定文档回答相关问题
2WikiMultihopQA 基于多个给定文档回答相关问题
MuSiQue 基于多个给定文档回答相关问题
DuReader 基于多个检索到的文档回答相关中文问题
MultiFieldQA-en 基于长文章回答英语问题,文章来自相对多样的领域
MultiFieldQA-zh 基于长文章回答中文问题,文章来自相对多样的领域
NarrativeQA 基于故事或剧本回答问题,包括对角色、情节、主题等的理解
Qasper 基于NLP研究论文回答问题,问题由NLP从业者提出和回答
GovReport 总结政府工作报告的摘要任务
MultiNews 多文档摘要任务,需要总结多篇新闻
QMSum 基于用户查询总结会议记录的摘要任务
VCSUM 总结中文会议记录的摘要任务
SAMSum 对话摘要任务,提供几个小样本示例
TriviaQA 单文档问答任务,提供几个小样本示例
TREC 分类任务,需要对问题进行分类,共50个类别
LSHT 中文分类任务,需要对新闻进行分类,共24个类别
PassageRetrieval-en 给定30个英文维基百科段落,确定哪个段落与给定摘要对应
PassageCount 确定给定重复文章中不同段落的总数
PassageRetrieval-zh 给定几个C4数据集中的中文段落,确定哪个段落与给定摘要对应
LCC 给定一段长代码,预测下一行代码
RepoBench-P 给定GitHub仓库中的多文件代码(包括跨文件依赖),预测下一行代码

LongBench-E 统计

任务名称 任务类型 0-4k数据量 4-8k数据量 8k+数据量
HotpotQA 多文档问答 100 100 100
2WikiMultihopQA 多文档问答 100 100 100
MultiFieldQA-en 单文档问答 67 70 13
Qasper 单文档问答 100 100 24
GovReport 摘要 100 100 100
MultiNews 摘要 100 100 94
TriviaQA 小样本 100 100 100
SAMSum 小样本 100 100 100
TREC 小样本 100 100 100
PassageRetrieval-en 合成 100 100 100
PassageCount 合成 100 100 100
LCC 代码 100 100 100
RepoBench-P 代码 100 100 100
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
LongBench is a bilingual, multitask benchmark for assessing long context understanding in large language models, featuring diverse tasks across English and Chinese with extensive data lengths and automated evaluation.
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作