yanbingzheng/LongBench
收藏数据集概述
LongBench 是一个双语、多任务的长期上下文理解能力评估基准。该数据集包含中文和英文两种语言,涵盖了多种任务类型,包括问答、文本生成、摘要、对话和文本分类等。
数据集特点
- 语言: 支持中文(zh)和英文(en)。
- 任务类别: 包括问答、文本生成、摘要、对话和文本分类等。
- 标签: 主要关注长上下文(Long Context)。
- 数据集大小: 包含1000到10000条数据。
数据集构成
LongBench 包含13个英文任务、5个中文任务和2个代码任务,大多数任务的平均长度在5000到15000之间。
数据格式
所有数据标准化为以下JSON格式: json { "input": "任务输入", "context": "任务所需的长上下文文本", "answers": "标准答案列表", "length": "前三项文本的总长度", "dataset": "数据所属的数据集名称", "language": "数据的语言", "all_classes": "分类任务的所有类别", "_id": "每条数据的随机ID" }
任务统计
| 任务 | 任务类型 | 评估指标 | 平均长度 | 语言 | 样本数量 |
|---|---|---|---|---|---|
| HotpotQA | Multi-doc QA | F1 | 9,149 | EN | 200 |
| 2WikiMultihopQA | Multi-doc QA | F1 | 4,885 | EN | 200 |
| DuReader | Multi-doc QA | Rouge-L | 15,768 | ZH | 200 |
| MultiFieldQA-en | Single-doc QA | F1 | 4,559 | EN | 150 |
| GovReport | Summarization | Rouge-L | 8,169 | EN | 200 |
| VCSUM | Summarization | Rouge-L | 15,147 | ZH | 200 |
| TREC | Few shot | Accuracy | 5,176 | EN | 200 |
| LSHT | Few shot | Accuracy | 22,333 | ZH | 200 |
| LCC | Code | Edit Sim | 1,235 | Python/C#/Java | 500 |
任务描述
| 任务 | 任务描述 |
|---|---|
| HotpotQA | 基于多个给定文档回答相关问题 |
| 2WikiMultihopQA | 基于多个给定文档回答相关问题 |
| DuReader | 基于多个检索到的文档回答相关中文问题 |
| MultiFieldQA-en | 基于一篇长文章回答英语问题,文章来自相对多样化的领域 |
| GovReport | 需要总结政府工作报告的摘要任务 |
| VCSUM | 需要总结中文会议记录的摘要任务 |
| TREC | 需要对问题进行分类的分类任务,包含50个类别 |
| LSHT | 需要对新闻进行分类的中文分类任务,包含24个类别 |
| LCC | 给定一段长代码,预测下一行代码 |
使用方法
加载数据
使用以下Python代码加载数据集: python from datasets import load_dataset
datasets = ["hotpotqa", "2wikimqa", "musique", "dureader", "narrativeqa", "qasper", "multifieldqa_en", "multifieldqa_zh", "gov_report", "qmsum", "vcsum", "trec", "nq", "triviaqa", "lsht", "passage_count", "passage_retrieval_en", "passage_retrieval_zh", "lcc", "repobench-p"]
for dataset in datasets: data = load_dataset(THUDM/LongBench, dataset, split=test)
评估
如需使用此数据集进行自动化评估,请参考GitHub仓库:LongBench。




