yanbingzheng/LongBench

Name: yanbingzheng/LongBench
Creator: yanbingzheng
Published: 2023-08-14 06:22:04
License: 暂无描述

Hugging Face2023-08-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/yanbingzheng/LongBench

下载链接

链接失效反馈

官方服务：

资源简介：

LongBench是第一个用于双语、多任务、全面评估大语言模型长上下文理解能力的基准测试。它包含中英文两种语言，涵盖六种主要类别和二十种不同任务，如多文档QA、单文档QA、摘要、Few-shot学习、代码完成和合成任务等。数据集采用全自动评估方法，以最低成本评估模型的长上下文理解能力。数据集的平均长度大多在5k到15k之间。

提供机构：

yanbingzheng

原始信息汇总

数据集概述

LongBench 是一个双语、多任务的长期上下文理解能力评估基准。该数据集包含中文和英文两种语言，涵盖了多种任务类型，包括问答、文本生成、摘要、对话和文本分类等。

数据集特点

语言: 支持中文（zh）和英文（en）。
任务类别: 包括问答、文本生成、摘要、对话和文本分类等。
标签: 主要关注长上下文（Long Context）。
数据集大小: 包含1000到10000条数据。

数据集构成

LongBench 包含13个英文任务、5个中文任务和2个代码任务，大多数任务的平均长度在5000到15000之间。

数据格式

所有数据标准化为以下JSON格式： json { "input": "任务输入", "context": "任务所需的长上下文文本", "answers": "标准答案列表", "length": "前三项文本的总长度", "dataset": "数据所属的数据集名称", "language": "数据的语言", "all_classes": "分类任务的所有类别", "_id": "每条数据的随机ID" }

任务统计

任务	任务类型	评估指标	平均长度	语言	样本数量
HotpotQA	Multi-doc QA	F1	9,149	EN	200
2WikiMultihopQA	Multi-doc QA	F1	4,885	EN	200
DuReader	Multi-doc QA	Rouge-L	15,768	ZH	200
MultiFieldQA-en	Single-doc QA	F1	4,559	EN	150
GovReport	Summarization	Rouge-L	8,169	EN	200
VCSUM	Summarization	Rouge-L	15,147	ZH	200
TREC	Few shot	Accuracy	5,176	EN	200
LSHT	Few shot	Accuracy	22,333	ZH	200
LCC	Code	Edit Sim	1,235	Python/C#/Java	500

任务描述

任务	任务描述
HotpotQA	基于多个给定文档回答相关问题
2WikiMultihopQA	基于多个给定文档回答相关问题
DuReader	基于多个检索到的文档回答相关中文问题
MultiFieldQA-en	基于一篇长文章回答英语问题，文章来自相对多样化的领域
GovReport	需要总结政府工作报告的摘要任务
VCSUM	需要总结中文会议记录的摘要任务
TREC	需要对问题进行分类的分类任务，包含50个类别
LSHT	需要对新闻进行分类的中文分类任务，包含24个类别
LCC	给定一段长代码，预测下一行代码

使用方法

加载数据

使用以下Python代码加载数据集： python from datasets import load_dataset

datasets = ["hotpotqa", "2wikimqa", "musique", "dureader", "narrativeqa", "qasper", "multifieldqa_en", "multifieldqa_zh", "gov_report", "qmsum", "vcsum", "trec", "nq", "triviaqa", "lsht", "passage_count", "passage_retrieval_en", "passage_retrieval_zh", "lcc", "repobench-p"]

for dataset in datasets: data = load_dataset(THUDM/LongBench, dataset, split=test)

评估

如需使用此数据集进行自动化评估，请参考GitHub仓库：LongBench。

搜集汇总

数据集介绍

背景与挑战

背景概述

LongBench是一个双语（中英文）长文本理解能力评估基准测试数据集，包含20个多样化任务，覆盖多文档问答、摘要生成等关键场景，文本平均长度在5k到15k之间，采用全自动化评估方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集