five

LongBench|长文本理解数据集|多任务学习数据集

收藏
arXiv2023-08-28 更新2024-07-31 收录
长文本理解
多任务学习
下载链接:
https://github.com/THUDM/LongBench
下载链接
链接失效反馈
资源简介:
LongBench是一个专为长上下文理解设计的双语多任务基准数据集,由清华大学和中国科学院自动化研究所创建。该数据集包含21个子数据集,覆盖6种任务类别,平均长度为6,711英文单词和13,386中文字符。数据集内容涵盖了单文档问答、多文档问答、摘要、少样本学习、合成任务和代码完成等关键长文本应用领域。LongBench的创建过程涉及从原始数据集中提取、构建和标注,以适应长上下文评估。该数据集的应用领域旨在解决长文本处理中的理解和生成问题,为大型语言模型提供了一个全面的评估平台。
提供机构:
清华大学 中国科学院自动化研究所
创建时间:
2023-08-28
原始信息汇总

数据集概述

数据集名称

LongBench

数据集描述

LongBench 是一个用于评估大型语言模型在长上下文理解能力方面的双语、多任务基准。它包括中文和英文两种语言,涵盖了单文档问答、多文档问答、摘要、小样本学习、合成任务和代码完成等六大类别的二十一个不同任务。

数据集组成

  • 任务类型
    • 多文档问答:3个英文任务,1个中文任务
    • 单文档问答:3个英文任务,1个中文任务
    • 摘要:3个英文任务,1个中文任务
    • 小样本学习:3个英文任务,1个中文任务
    • 合成任务:2个英文任务,1个中文任务
    • 代码完成:2个代码任务

数据集规模

  • 共包含14个英文任务,5个中文任务,2个代码任务。
  • 平均任务长度范围从5k到15k。
  • 总共包含4,750个测试数据。

数据集特点

  • 采用全自动评估方法,以最低成本测量和评估模型的长上下文理解能力。
  • 提供了LongBench-E,一个通过均匀采样构建的测试集,具有在0-4k、4k-8k和8k+长度区间内可比的数据量,用于分析模型在不同输入长度下的性能变化。

数据格式

所有数据遵循以下标准格式: json { "input": "任务的输入/命令,通常较短,如问答中的问题,小样本任务中的查询等", "context": "任务所需的长上下文,如文档、跨文件代码、小样本任务中的小样本示例", "answers": "所有正确答案的列表", "length": "前三项的总长度(中文按字符计,英文按单词计)", "dataset": "该数据所属的数据集名称", "language": "该数据的语言", "all_classes": "分类任务中的所有类别,非分类任务为null", "_id": "每条数据的随机id" }

评估方法

  • 通过Hugging Face datasets库下载和加载数据。
  • 使用pred.py进行模型推理,并使用eval.py进行评估。
  • 提供了基于检索和摘要的长上下文压缩评估代码。

评估结果

  • 提供了在Zero-shot场景下,不同模型在主要任务类别上的平均得分。
  • 提供了在不同数据集上的详细评估结果。

更新记录

  • 2024/02/01:发布了LongBench-Chat,首个真实世界长上下文评估基准(10k-100k输入长度)。
  • 2023/10/30:发布了新的ChatGLM3-6B-32k聊天模型,擅长长文档问答、推理和摘要。
  • 2023/08/29:发布了LongBench论文,并更新了数据集,增加了MultiNews和SAMSum任务,调整了数据长度分布,公开了所有评估代码。

引用

@article{bai2023longbench, title={LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding}, author={Bai, Yushi and Lv, Xin and Zhang, Jiajie and Lyu, Hongchang and Tang, Jiankai and Huang, Zhidian and Du, Zhengxiao and Liu, Xiao and Zeng, Aohan and Hou, Lei and Dong, Yuxiao and Tang, Jie and Li, Juanzi}, journal={arXiv preprint arXiv:2308.14508}, year={2023} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
LongBench数据集的构建旨在评估大型语言模型在长上下文理解方面的能力。该数据集包含了21个数据集,涵盖了6个任务类别,包括单文档问答、多文档问答、摘要、少样本学习、合成任务和代码补全。这些任务以中英文双语形式呈现,平均长度分别为6,711个英文单词和13,386个中文字符。LongBench的构建过程中,6个数据集直接提取自先前的研究,10个数据集经过处理以适应长上下文评估,另外5个数据集则是全新创建和标注的。所有数据集被标准化为统一的格式,以便于自动评估大型语言模型。
特点
LongBench数据集的主要特点在于其双语性和多任务性,涵盖了从单文档到多文档的问答、摘要生成、少样本学习、合成任务和代码补全等多种应用场景。数据集的平均长度显著高于传统数据集,能够有效测试模型在处理长文本时的性能。此外,LongBench采用了自动化的评估方法,利用ROUGE-L和F1等自动指标来衡量模型输出与标准答案的相似度,确保评估的客观性和一致性。
使用方法
LongBench数据集适用于评估和改进大型语言模型在长上下文理解方面的能力。研究者和开发者可以使用该数据集来测试模型在不同任务和语言环境下的表现,识别模型在处理长文本时的优势和不足。通过对比不同模型的性能,可以为模型的进一步优化提供指导。此外,LongBench还支持自动化的评估流程,简化了模型评估的复杂性,使得研究者能够更专注于模型的改进和创新。
背景与挑战
背景概述
在自然语言处理领域,赋予机器理解和推理长上下文的能力一直是研究的核心目标。随着大型语言模型(LLMs)的发展,尽管其在许多语言任务中表现出色,但大多数模型仍受限于处理几千个token长度的文本,这限制了其在书籍、报告和代码库等长序列输入上的应用。近年来,研究者们通过扩展上下文窗口和引入更复杂的记忆机制来提升LLMs的长上下文处理能力。然而,针对长上下文理解的综合基准测试仍然缺乏。为此,清华大学和自动化研究所的研究团队于2023年推出了LongBench,这是首个双语、多任务的长上下文理解基准测试,旨在更严格地评估长上下文理解能力。LongBench包含21个数据集,涵盖6个任务类别,包括单文档问答、多文档问答、摘要、少样本学习、合成任务和代码补全,平均长度为6,711个英文单词和13,386个中文字符。
当前挑战
LongBench数据集面临的挑战主要集中在两个方面:一是解决长上下文理解任务的复杂性,包括如何有效地处理和提取长文本中的关键信息;二是数据集构建过程中遇到的实际问题,如数据标注的高成本和长文本处理的计算复杂性。此外,评估长上下文理解能力的标准化和自动化也是一个重要挑战,尤其是在处理多语言和多任务场景时。LongBench通过引入统一的数据格式和自动评估方法,试图解决这些挑战,但其评估结果仍需进一步验证和优化,以确保其能够准确反映模型的长上下文处理能力。
常用场景
经典使用场景
LongBench 数据集在自然语言处理领域中被广泛用于评估大型语言模型在长上下文理解任务中的表现。其经典使用场景包括多文档问答、单文档问答、摘要生成、少样本学习、合成任务和代码补全等。这些任务要求模型能够处理长达数千甚至数万词的长文本,从而模拟真实世界中的复杂应用场景,如书籍、报告和代码库的理解与生成。
衍生相关工作
LongBench 数据集的推出催生了一系列相关研究工作,特别是在长上下文建模和评估方法方面。例如,研究人员基于 LongBench 提出了新的模型架构,如扩展上下文窗口和增强记忆机制,以提升模型在长文本任务中的表现。此外,LongBench 还促进了新的评估基准的开发,如 LongBench-E,用于更细致地分析模型在不同上下文长度下的性能变化。这些工作共同推动了长上下文理解技术的发展和应用。
数据集最近研究
最新研究方向
在自然语言处理领域,长文本理解一直是研究的前沿课题。随着大型语言模型(LLMs)的发展,尽管其在多种语言任务中表现出色,但大多数模型仍受限于处理几千个token的文本。为了突破这一限制,LongBench数据集应运而生,成为首个双语、多任务的长文本理解基准。该数据集涵盖了从单文档问答、多文档问答到摘要生成等多个任务,平均长度达到6,711个英文单词和13,386个中文字符。LongBench不仅标准化了数据格式,还通过全面的模型评估揭示了现有模型在长上下文处理中的不足,如商业模型GPT-3.5-Turbo-16k在长上下文中仍面临挑战。研究还发现,扩展位置嵌入和在更长序列上微调能显著提升长上下文理解能力,而上下文压缩技术如检索则对长上下文理解能力较弱的模型有所帮助。LongBench的推出为未来长文本理解研究提供了坚实的基准,推动了该领域的发展。
相关研究论文
  • 1
    LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding清华大学 中国科学院自动化研究所 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录