LongBench-v2|大型语言模型数据集|长上下文处理数据集

huggingface2024-12-20 更新2024-12-21 收录

大型语言模型

长上下文处理

下载链接：

https://huggingface.co/datasets/THUDM/LongBench-v2

下载链接

链接失效反馈

资源简介：

LongBench v2 是一个用于评估大型语言模型（LLMs）处理长上下文问题的能力的数据集。该数据集设计用于测试模型在需要深度理解和推理的真实多任务场景中的表现。其特点包括：1）上下文长度从8k到2M字不等，大部分在128k以下；2）难度较高，即使是使用搜索工具的人类专家在短时间内也无法正确回答；3）覆盖多种现实场景；4）采用多选题格式以确保评估的可靠性。数据集包含503个具有挑战性的多选题，涉及六个主要任务类别：单文档问答、多文档问答、长上下文学习、长对话历史理解、代码库理解和长结构化数据理解。数据集的质量和难度通过自动化和手动审查流程来保证，结果显示人类专家在15分钟内只能达到53.7%的准确率，而最佳模型直接回答问题时准确率为50.1%，包含更长推理的模型则达到57.7%。

提供机构：

Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University

创建时间：

2024-12-18

AI搜集汇总

数据集介绍

构建方式

LongBench-v2数据集的构建旨在评估大型语言模型（LLMs）在处理需要深度理解和推理的长上下文多任务问题上的能力。该数据集包含503个具有挑战性的多项选择题，上下文长度从8千字到2百万字不等，涵盖了单文档问答、多文档问答、长上下文学习、长对话历史理解、代码库理解和长结构化数据理解等六大任务类别。数据集的构建过程中，收集了来自近100名具有多样化专业背景的高学历个体的数据，并通过自动化和人工审查流程确保数据的高质量和难度，最终使得在15分钟时间限制下，人类专家的准确率仅为53.7%。

使用方法

使用LongBench-v2数据集可以通过Hugging Face的datasets库进行加载，代码示例如下： python from datasets import load_dataset dataset = load_dataset('THUDM/LongBench-v2', split='train') 此外，也可以通过提供的链接下载数据文件进行加载。数据集的标准化格式包括唯一标识符、数据的主要和次要领域分类、任务难度和长度分类、问题、选项、正确答案以及任务所需的长上下文。对于自动化评估，可以参考数据集的GitHub仓库获取更多信息。

背景与挑战

背景概述

LongBench-v2数据集由清华大学（THUDM）的研究团队开发，旨在评估大型语言模型（LLMs）在处理长上下文问题时的深度理解和推理能力。该数据集创建于2024年，涵盖了从8千到2百万字的上下文长度，主要任务包括单文档和多文档问答、长上下文学习、长对话历史理解、代码库理解和长结构化数据理解等。通过从近100名具有多样化专业背景的高学历个体收集数据，并结合自动化和人工审查流程，确保了数据的高质量和挑战性。LongBench-v2不仅为研究者提供了一个评估模型在复杂长上下文任务中表现的基准，还揭示了现有模型在处理此类任务时的局限性，推动了相关领域的技术进步。

当前挑战

LongBench-v2数据集面临的挑战主要集中在以下几个方面：首先，处理长上下文所需的计算资源和推理能力要求极高，现有模型在直接回答问题时仅能达到50.1%的准确率，远低于人类专家的表现。其次，数据集的构建过程中，如何确保从多样化背景中收集的数据具有一致的高难度和实用性，是一个复杂的问题。此外，长上下文任务的多样性和复杂性要求模型具备跨领域的理解和推理能力，这对模型的泛化能力和计算效率提出了更高的要求。最后，如何在有限的计算资源下，提升模型的推理能力和准确性，是该数据集未来研究的重点。

常用场景

经典使用场景

LongBench-v2数据集的经典使用场景主要集中在评估大型语言模型（LLMs）在处理长上下文任务时的深度理解和推理能力。该数据集通过包含从8k到2M字的长文本上下文，涵盖了单文档问答、多文档问答、长上下文学习、长对话历史理解、代码库理解和长结构化数据理解等多种任务，为研究者提供了一个全面的评估平台。

解决学术问题

LongBench-v2数据集解决了在长上下文环境下，模型如何进行深度理解和复杂推理的学术研究问题。通过提供具有挑战性的多选题格式，该数据集不仅揭示了现有模型在处理长文本时的局限性，还为研究者提供了一个基准，以探索和改进模型在长上下文任务中的表现，从而推动了自然语言处理领域的发展。

实际应用

在实际应用中，LongBench-v2数据集可用于开发和优化能够处理长文本的智能系统，如法律文档分析、医学文献解读、技术文档理解等。这些应用场景需要模型具备在长篇文档中进行深度推理和准确回答问题的能力，从而提高信息检索和知识管理的效率。

数据集最近研究

最新研究方向

在自然语言处理领域，LongBench-v2数据集的最新研究方向聚焦于长上下文场景下的深度理解和推理能力评估。该数据集通过涵盖从8k到2M字的长文本上下文，挑战了现有大型语言模型（LLMs）在多任务处理中的极限。研究者们正致力于探索如何通过扩展推理时计算资源，提升模型在复杂长文本环境中的表现。这一研究不仅推动了LLMs在实际应用中的性能提升，也为未来模型设计提供了新的思路，特别是在需要深入理解和复杂推理的场景中，如多文档问答、长对话历史理解和代码库理解等领域。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

UAVDT

UAVDT数据集由中国科学院大学等机构创建，包含约80,000帧从10小时无人机拍摄视频中精选的图像，覆盖多种复杂城市环境。数据集主要关注车辆目标，每帧均标注了边界框及多达14种属性，如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究，解决高密度、小目标、相机运动等挑战，适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录

DALY

DALY数据集包含了全球疾病负担研究（Global Burden of Disease Study）中的伤残调整生命年（Disability-Adjusted Life Years, DALYs）数据。该数据集提供了不同国家和地区在不同年份的DALYs指标，用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

Global Volcanism Program (GVP)

该数据集包含了全球火山活动的详细信息，包括火山的位置、类型、历史喷发记录、喷发频率等。数据集还提供了关于火山活动的研究报告和相关文献的链接。

volcano.si.edu 收录