five

LongBench|自然语言处理数据集|模型评估数据集

收藏
arXiv2025-05-26 更新2025-05-28 收录
自然语言处理
模型评估
下载链接:
https://github.com/uservan/100-LongBench.git
下载链接
链接失效反馈
资源简介:
LongBench数据集由Case Western Reserve University、Texas A&M University、Rice University和Meta共同创建,旨在解决现有长上下文评估基准的两个主要问题:缺乏区分长上下文性能与模型基线能力的适当指标,以及数据样本具有固定的序列长度,限制了其适用性。LongBench是一个长度可控的长上下文基准,包含丰富的真实和合成任务,并引入了一种新的评估指标LongScore,可以有效地分离基线知识与长上下文能力,从而更准确地评估LLMs的真实能力。该数据集适用于长上下文能力评估,旨在解决模型处理和理解长上下文的实际能力问题。
提供机构:
Case Western Reserve University, Texas A&M University, Rice University, Meta
创建时间:
2025-05-26
AI搜集汇总
数据集介绍
main_image_url
构建方式
LongBench数据集的构建采用了长度可控的上下文生成方法,通过结合真实和合成的任务内容,确保评估的全面性和真实性。具体而言,研究团队从真实上下文源中随机选取一篇文章作为基础,同时从噪声上下文源中抽取多篇文章作为干扰项,将这些文章按随机顺序组合以构建接近目标长度的上下文。此外,针对问答任务引入了过滤机制,以消除模型固有知识对评估结果的影响,从而更准确地衡量模型处理长上下文的能力。
使用方法
使用LongBench数据集时,研究人员可通过生成不同长度的上下文样本来评估模型的长文本处理能力。具体操作包括:首先从数据集中选取特定长度的样本,然后利用提供的评估指标(如LongScore)对模型表现进行量化分析。评估过程中,建议重点关注模型在长上下文任务中的相对性能变化,而非绝对得分,以更准确地反映其长文本处理能力的真实水平。此外,针对特定领域(如法律、医疗)的长文本任务,可通过集成领域专用数据集来进一步验证模型的专项能力。
背景与挑战
背景概述
LongBench是由Case Western Reserve University、Texas A&M University、Rice University和Meta的研究团队于2025年提出的长上下文理解评估基准。该数据集旨在解决大语言模型(LLMs)在处理长上下文任务时的评估问题,特别是在区分模型的基线能力和长上下文能力方面的不足。LongBench通过引入可控制长度的上下文任务和新颖的评估指标LongScore,为研究社区提供了一个更准确、更全面的评估工具。该数据集的提出对推动长上下文语言模型的发展具有重要意义,特别是在医疗、法律等需要处理长文本的专业领域。
当前挑战
LongBench面临的挑战主要包括两个方面:1) 领域问题的挑战:现有的长上下文评估基准往往无法有效区分模型的基线能力和长上下文能力,导致评估结果存在偏差。此外,许多基准使用固定长度的输入样本,限制了其在不同上下文窗口大小的模型上的适用性。2) 构建过程的挑战:在构建数据集时,需要确保上下文长度的可控性,同时避免模型先验知识对评估结果的影响。这要求精心设计数据生成流程,包括真实上下文和噪声上下文的组合,以及问题回答过滤机制,以确保评估的公正性和准确性。
常用场景
经典使用场景
LongBench数据集在自然语言处理领域被广泛用于评估大语言模型(LLMs)的长文本处理能力。其经典使用场景包括模型在长文本问答、信息检索和摘要生成等任务中的表现测试。通过模拟真实世界中的长文本处理需求,LongBench为研究人员提供了一个标准化的测试平台,以验证模型在长上下文环境下的理解和推理能力。
解决学术问题
LongBench解决了评估长上下文语言模型时的两个主要学术问题:一是传统基准测试无法区分模型的基础能力和长上下文处理能力,二是固定长度的测试样本限制了评估的灵活性和适用范围。通过引入长度可调的测试样本和新的评估指标LongScore,LongBench能够更准确地衡量模型在长文本任务中的真实表现,从而推动了长上下文语言模型的研究和发展。
实际应用
在实际应用中,LongBench被用于测试和优化各类大语言模型在长文本处理任务中的表现,如法律文档分析、医疗记录处理和长篇新闻报道摘要生成等。这些应用场景要求模型能够准确理解和处理大量文本信息,LongBench通过提供多样化的测试任务和长度可调的文本样本,帮助开发者在实际应用中更好地评估和提升模型的性能。
数据集最近研究
最新研究方向
随着大型语言模型(LLM)在长上下文处理能力上的快速发展,LongBench数据集的研究方向聚焦于如何更精准地评估模型的长上下文理解能力。最新研究指出,现有评估基准存在两大局限:一是无法有效区分模型的基础能力与长上下文能力,二是在固定长度样本上的评估缺乏对模型失效点的动态探测。针对这些问题,研究者提出了长度可控的评估基准及新型度量指标LongScore,通过解耦基础能力与长上下文能力,实现了更准确的模型评估。该研究在医疗文档分析、法律合同解读等专业领域展现出重要应用价值,为LLM在超长文本处理场景中的性能优化提供了科学依据。
相关研究论文
  • 1
    100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability?Case Western Reserve University, Texas A&M University, Rice University, Meta · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

alpacaGPT4_llama8b-v120-jb-seed2-alpaca_512_ngt0.7_tp0.9

该数据集包含了用户和助手之间的对话,具有用户和助手发言的文本特征,以及一个索引级别特征。数据集分为训练集,共有52001条对话记录。

huggingface 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录

ActivityNet Captions

The ActivityNet Captions dataset is built on ActivityNet v1.3 which includes 20k YouTube untrimmed videos with 100k caption annotations. The videos are 120 seconds long on average. Most of the videos contain over 3 annotated events with corresponding start/end time and human-written sentences, which contain 13.5 words on average. The number of videos in train/validation/test split is 10024/4926/5044, respectively.

Papers with Code 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录