five

yanbingzheng/LongBench

收藏
Hugging Face2023-08-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yanbingzheng/LongBench
下载链接
链接失效反馈
官方服务:
资源简介:
LongBench是第一个用于双语、多任务、全面评估大语言模型长上下文理解能力的基准测试。它包含中英文两种语言,涵盖六种主要类别和二十种不同任务,如多文档QA、单文档QA、摘要、Few-shot学习、代码完成和合成任务等。数据集采用全自动评估方法,以最低成本评估模型的长上下文理解能力。数据集的平均长度大多在5k到15k之间。

LongBench是第一个用于双语、多任务、全面评估大语言模型长上下文理解能力的基准测试。它包含中英文两种语言,涵盖六种主要类别和二十种不同任务,如多文档QA、单文档QA、摘要、Few-shot学习、代码完成和合成任务等。数据集采用全自动评估方法,以最低成本评估模型的长上下文理解能力。数据集的平均长度大多在5k到15k之间。
提供机构:
yanbingzheng
原始信息汇总

数据集概述

LongBench 是一个双语、多任务的长期上下文理解能力评估基准。该数据集包含中文和英文两种语言,涵盖了多种任务类型,包括问答、文本生成、摘要、对话和文本分类等。

数据集特点

  • 语言: 支持中文(zh)和英文(en)。
  • 任务类别: 包括问答、文本生成、摘要、对话和文本分类等。
  • 标签: 主要关注长上下文(Long Context)。
  • 数据集大小: 包含1000到10000条数据。

数据集构成

LongBench 包含13个英文任务、5个中文任务和2个代码任务,大多数任务的平均长度在5000到15000之间。

数据格式

所有数据标准化为以下JSON格式: json { "input": "任务输入", "context": "任务所需的长上下文文本", "answers": "标准答案列表", "length": "前三项文本的总长度", "dataset": "数据所属的数据集名称", "language": "数据的语言", "all_classes": "分类任务的所有类别", "_id": "每条数据的随机ID" }

任务统计

任务 任务类型 评估指标 平均长度 语言 样本数量
HotpotQA Multi-doc QA F1 9,149 EN 200
2WikiMultihopQA Multi-doc QA F1 4,885 EN 200
DuReader Multi-doc QA Rouge-L 15,768 ZH 200
MultiFieldQA-en Single-doc QA F1 4,559 EN 150
GovReport Summarization Rouge-L 8,169 EN 200
VCSUM Summarization Rouge-L 15,147 ZH 200
TREC Few shot Accuracy 5,176 EN 200
LSHT Few shot Accuracy 22,333 ZH 200
LCC Code Edit Sim 1,235 Python/C#/Java 500

任务描述

任务 任务描述
HotpotQA 基于多个给定文档回答相关问题
2WikiMultihopQA 基于多个给定文档回答相关问题
DuReader 基于多个检索到的文档回答相关中文问题
MultiFieldQA-en 基于一篇长文章回答英语问题,文章来自相对多样化的领域
GovReport 需要总结政府工作报告的摘要任务
VCSUM 需要总结中文会议记录的摘要任务
TREC 需要对问题进行分类的分类任务,包含50个类别
LSHT 需要对新闻进行分类的中文分类任务,包含24个类别
LCC 给定一段长代码,预测下一行代码

使用方法

加载数据

使用以下Python代码加载数据集: python from datasets import load_dataset

datasets = ["hotpotqa", "2wikimqa", "musique", "dureader", "narrativeqa", "qasper", "multifieldqa_en", "multifieldqa_zh", "gov_report", "qmsum", "vcsum", "trec", "nq", "triviaqa", "lsht", "passage_count", "passage_retrieval_en", "passage_retrieval_zh", "lcc", "repobench-p"]

for dataset in datasets: data = load_dataset(THUDM/LongBench, dataset, split=test)

评估

如需使用此数据集进行自动化评估,请参考GitHub仓库:LongBench

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
LongBench是一个双语(中英文)长文本理解能力评估基准测试数据集,包含20个多样化任务,覆盖多文档问答、摘要生成等关键场景,文本平均长度在5k到15k之间,采用全自动化评估方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作