bzantium/LongBench

Name: bzantium/LongBench
Creator: bzantium
Published: 2023-09-25 04:03:43
License: 暂无描述

Hugging Face2023-09-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bzantium/LongBench

下载链接

链接失效反馈

官方服务：

资源简介：

LongBench是首个用于双语、多任务和全面评估大语言模型长上下文理解能力的基准。它包含中英文两种语言，涵盖六类主要任务和二十一个不同任务，涉及单文档问答、多文档问答、摘要生成、少样本学习、合成任务和代码补全等关键长文本应用场景。数据集采用全自动评估方法，以最低成本衡量和评估模型的长上下文理解能力。LongBench包含14个英文任务、5个中文任务和2个代码任务，平均长度在5k到15k之间，共有4,750条测试数据。此外，还提供了LongBench-E测试集，其长度分布更均匀，用于分析模型在不同输入长度下的性能变化。

LongBench is the first benchmark for bilingual, multi-task, and comprehensive evaluation of long-context understanding capabilities of large language models (LLMs). It comprises six primary task categories and twenty-one distinct tasks, covering key long-text application scenarios including single-document question answering, multi-document question answering, summarization, few-shot learning, synthetic tasks, and code completion. The dataset employs a fully automatic evaluation framework to measure and evaluate the long-context understanding capabilities of models at minimal cost. LongBench contains 14 English tasks, 5 Chinese tasks, and 2 code tasks, with an average length ranging from 5k to 15k tokens and a total of 4,750 test instances. In addition, the LongBench-E test set is also provided, which features a more uniform length distribution and is utilized to analyze the performance variations of models across different input lengths.

提供机构：

bzantium

原始信息汇总

数据集概述

基本信息

任务类别: 问答、文本生成、摘要、对话、文本分类
语言: 英语、中文
标签: 长上下文
数据规模: 1K<n<10K

数据集介绍

LongBench 是一个用于评估大型语言模型长上下文理解能力的双语、多任务综合性基准。它包括中文和英文两种语言，涵盖了单文档问答、多文档问答、摘要、小样本学习、合成任务和代码完成等六大类共二十一个不同任务。

数据集组成

任务数量: 14个英语任务、5个中文任务、2个代码任务
平均长度: 大部分任务的平均长度在5k到15k之间
总测试数据: 4,750条

数据格式

所有数据遵循以下标准格式： json { "input": "任务的输入/命令", "context": "任务所需的长上下文", "answers": "所有正确答案的列表", "length": "前三项的总长度", "dataset": "数据所属的数据集名称", "language": "数据的语言", "all_classes": "分类任务的所有类别，非分类任务为null", "_id": "每条数据的随机ID" }

任务统计

任务名称	任务类型	评估指标	平均长度	语言	样本数量
HotpotQA	多文档问答	F1	9,151	EN	200
2WikiMultihopQA	多文档问答	F1	4,887	EN	200
MuSiQue	多文档问答	F1	11,214	EN	200
DuReader	多文档问答	Rouge-L	15,768	ZH	200
MultiFieldQA-en	单文档问答	F1	4,559	EN	150
MultiFieldQA-zh	单文档问答	F1	6,701	ZH	200
NarrativeQA	单文档问答	F1	18,409	EN	200
Qasper	单文档问答	F1	3,619	EN	200
GovReport	摘要	Rouge-L	8,734	EN	200
QMSum	摘要	Rouge-L	10,614	EN	200
MultiNews	摘要	Rouge-L	2,113	EN	200
VCSUM	摘要	Rouge-L	15,380	ZH	200
TriviaQA	小样本	F1	8,209	EN	200
SAMSum	小样本	Rouge-L	6,258	EN	200
TREC	小样本	准确率	5,177	EN	200
LSHT	小样本	准确率	22,337	ZH	200
PassageRetrieval-en	合成	准确率	9,289	EN	200
PassageCount	合成	准确率	11,141	EN	200
PassageRetrieval-zh	合成	准确率	6,745	ZH	200
LCC	代码	编辑相似度	1,235	Python/C#/Java	500
RepoBench-P	代码	编辑相似度	4,206	Python/Java	500

任务描述

任务名称	任务描述
HotpotQA	基于多个给定文档回答相关问题
2WikiMultihopQA	基于多个给定文档回答相关问题
MuSiQue	基于多个给定文档回答相关问题
DuReader	基于多个检索到的文档回答相关中文问题
MultiFieldQA-en	基于长文章回答英语问题，文章来自相对多样的领域
MultiFieldQA-zh	基于长文章回答中文问题，文章来自相对多样的领域
NarrativeQA	基于故事或剧本回答问题，包括对角色、情节、主题等的理解
Qasper	基于NLP研究论文回答问题，问题由NLP从业者提出和回答
GovReport	总结政府工作报告的摘要任务
MultiNews	多文档摘要任务，需要总结多篇新闻
QMSum	基于用户查询总结会议记录的摘要任务
VCSUM	总结中文会议记录的摘要任务
SAMSum	对话摘要任务，提供几个小样本示例
TriviaQA	单文档问答任务，提供几个小样本示例
TREC	分类任务，需要对问题进行分类，共50个类别
LSHT	中文分类任务，需要对新闻进行分类，共24个类别
PassageRetrieval-en	给定30个英文维基百科段落，确定哪个段落与给定摘要对应
PassageCount	确定给定重复文章中不同段落的总数
PassageRetrieval-zh	给定几个C4数据集中的中文段落，确定哪个段落与给定摘要对应
LCC	给定一段长代码，预测下一行代码
RepoBench-P	给定GitHub仓库中的多文件代码（包括跨文件依赖），预测下一行代码

LongBench-E 统计

任务名称	任务类型	0-4k数据量	4-8k数据量	8k+数据量
HotpotQA	多文档问答	100	100	100
2WikiMultihopQA	多文档问答	100	100	100
MultiFieldQA-en	单文档问答	67	70	13
Qasper	单文档问答	100	100	24
GovReport	摘要	100	100	100
MultiNews	摘要	100	100	94
TriviaQA	小样本	100	100	100
SAMSum	小样本	100	100	100
TREC	小样本	100	100	100
PassageRetrieval-en	合成	100	100	100
PassageCount	合成	100	100	100
LCC	代码	100	100	100
RepoBench-P	代码	100	100	100

搜集汇总

数据集介绍

背景与挑战

背景概述

LongBench is a bilingual, multitask benchmark for assessing long context understanding in large language models, featuring diverse tasks across English and Chinese with extensive data lengths and automated evaluation.

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集