bzantium/LongBench
收藏Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bzantium/LongBench
下载链接
链接失效反馈官方服务:
资源简介:
LongBench是首个用于双语、多任务和全面评估大语言模型长上下文理解能力的基准。它包含中英文两种语言,涵盖六类主要任务和二十一个不同任务,涉及单文档问答、多文档问答、摘要生成、少样本学习、合成任务和代码补全等关键长文本应用场景。数据集采用全自动评估方法,以最低成本衡量和评估模型的长上下文理解能力。LongBench包含14个英文任务、5个中文任务和2个代码任务,平均长度在5k到15k之间,共有4,750条测试数据。此外,还提供了LongBench-E测试集,其长度分布更均匀,用于分析模型在不同输入长度下的性能变化。
LongBench is the first benchmark for bilingual, multi-task, and comprehensive evaluation of long-context understanding capabilities of large language models (LLMs). It comprises six primary task categories and twenty-one distinct tasks, covering key long-text application scenarios including single-document question answering, multi-document question answering, summarization, few-shot learning, synthetic tasks, and code completion. The dataset employs a fully automatic evaluation framework to measure and evaluate the long-context understanding capabilities of models at minimal cost. LongBench contains 14 English tasks, 5 Chinese tasks, and 2 code tasks, with an average length ranging from 5k to 15k tokens and a total of 4,750 test instances. In addition, the LongBench-E test set is also provided, which features a more uniform length distribution and is utilized to analyze the performance variations of models across different input lengths.
提供机构:
bzantium
原始信息汇总
数据集概述
基本信息
- 任务类别: 问答、文本生成、摘要、对话、文本分类
- 语言: 英语、中文
- 标签: 长上下文
- 数据规模: 1K<n<10K
数据集介绍
LongBench 是一个用于评估大型语言模型长上下文理解能力的双语、多任务综合性基准。它包括中文和英文两种语言,涵盖了单文档问答、多文档问答、摘要、小样本学习、合成任务和代码完成等六大类共二十一个不同任务。
数据集组成
- 任务数量: 14个英语任务、5个中文任务、2个代码任务
- 平均长度: 大部分任务的平均长度在5k到15k之间
- 总测试数据: 4,750条
数据格式
所有数据遵循以下标准格式: json { "input": "任务的输入/命令", "context": "任务所需的长上下文", "answers": "所有正确答案的列表", "length": "前三项的总长度", "dataset": "数据所属的数据集名称", "language": "数据的语言", "all_classes": "分类任务的所有类别,非分类任务为null", "_id": "每条数据的随机ID" }
任务统计
| 任务名称 | 任务类型 | 评估指标 | 平均长度 | 语言 | 样本数量 |
|---|---|---|---|---|---|
| HotpotQA | 多文档问答 | F1 | 9,151 | EN | 200 |
| 2WikiMultihopQA | 多文档问答 | F1 | 4,887 | EN | 200 |
| MuSiQue | 多文档问答 | F1 | 11,214 | EN | 200 |
| DuReader | 多文档问答 | Rouge-L | 15,768 | ZH | 200 |
| MultiFieldQA-en | 单文档问答 | F1 | 4,559 | EN | 150 |
| MultiFieldQA-zh | 单文档问答 | F1 | 6,701 | ZH | 200 |
| NarrativeQA | 单文档问答 | F1 | 18,409 | EN | 200 |
| Qasper | 单文档问答 | F1 | 3,619 | EN | 200 |
| GovReport | 摘要 | Rouge-L | 8,734 | EN | 200 |
| QMSum | 摘要 | Rouge-L | 10,614 | EN | 200 |
| MultiNews | 摘要 | Rouge-L | 2,113 | EN | 200 |
| VCSUM | 摘要 | Rouge-L | 15,380 | ZH | 200 |
| TriviaQA | 小样本 | F1 | 8,209 | EN | 200 |
| SAMSum | 小样本 | Rouge-L | 6,258 | EN | 200 |
| TREC | 小样本 | 准确率 | 5,177 | EN | 200 |
| LSHT | 小样本 | 准确率 | 22,337 | ZH | 200 |
| PassageRetrieval-en | 合成 | 准确率 | 9,289 | EN | 200 |
| PassageCount | 合成 | 准确率 | 11,141 | EN | 200 |
| PassageRetrieval-zh | 合成 | 准确率 | 6,745 | ZH | 200 |
| LCC | 代码 | 编辑相似度 | 1,235 | Python/C#/Java | 500 |
| RepoBench-P | 代码 | 编辑相似度 | 4,206 | Python/Java | 500 |
任务描述
| 任务名称 | 任务描述 |
|---|---|
| HotpotQA | 基于多个给定文档回答相关问题 |
| 2WikiMultihopQA | 基于多个给定文档回答相关问题 |
| MuSiQue | 基于多个给定文档回答相关问题 |
| DuReader | 基于多个检索到的文档回答相关中文问题 |
| MultiFieldQA-en | 基于长文章回答英语问题,文章来自相对多样的领域 |
| MultiFieldQA-zh | 基于长文章回答中文问题,文章来自相对多样的领域 |
| NarrativeQA | 基于故事或剧本回答问题,包括对角色、情节、主题等的理解 |
| Qasper | 基于NLP研究论文回答问题,问题由NLP从业者提出和回答 |
| GovReport | 总结政府工作报告的摘要任务 |
| MultiNews | 多文档摘要任务,需要总结多篇新闻 |
| QMSum | 基于用户查询总结会议记录的摘要任务 |
| VCSUM | 总结中文会议记录的摘要任务 |
| SAMSum | 对话摘要任务,提供几个小样本示例 |
| TriviaQA | 单文档问答任务,提供几个小样本示例 |
| TREC | 分类任务,需要对问题进行分类,共50个类别 |
| LSHT | 中文分类任务,需要对新闻进行分类,共24个类别 |
| PassageRetrieval-en | 给定30个英文维基百科段落,确定哪个段落与给定摘要对应 |
| PassageCount | 确定给定重复文章中不同段落的总数 |
| PassageRetrieval-zh | 给定几个C4数据集中的中文段落,确定哪个段落与给定摘要对应 |
| LCC | 给定一段长代码,预测下一行代码 |
| RepoBench-P | 给定GitHub仓库中的多文件代码(包括跨文件依赖),预测下一行代码 |
LongBench-E 统计
| 任务名称 | 任务类型 | 0-4k数据量 | 4-8k数据量 | 8k+数据量 |
|---|---|---|---|---|
| HotpotQA | 多文档问答 | 100 | 100 | 100 |
| 2WikiMultihopQA | 多文档问答 | 100 | 100 | 100 |
| MultiFieldQA-en | 单文档问答 | 67 | 70 | 13 |
| Qasper | 单文档问答 | 100 | 100 | 24 |
| GovReport | 摘要 | 100 | 100 | 100 |
| MultiNews | 摘要 | 100 | 100 | 94 |
| TriviaQA | 小样本 | 100 | 100 | 100 |
| SAMSum | 小样本 | 100 | 100 | 100 |
| TREC | 小样本 | 100 | 100 | 100 |
| PassageRetrieval-en | 合成 | 100 | 100 | 100 |
| PassageCount | 合成 | 100 | 100 | 100 |
| LCC | 代码 | 100 | 100 | 100 |
| RepoBench-P | 代码 | 100 | 100 | 100 |
搜集汇总
数据集介绍

背景与挑战
背景概述
LongBench is a bilingual, multitask benchmark for assessing long context understanding in large language models, featuring diverse tasks across English and Chinese with extensive data lengths and automated evaluation.
以上内容由遇见数据集搜集并总结生成



