five

LOOMBench

收藏
Hugging Face2025-07-22 更新2025-07-23 收录
下载链接:
https://huggingface.co/datasets/AmamiSora/LOOMBench
下载链接
链接失效反馈
官方服务:
资源简介:
LOOMBench是一个用于评估长上下文语言模型的基准数据集。它包含12个多样化的基准,涵盖推理、检索和生成等多个领域。LOOMBench提供高效的评估流程,可以在6小时内完成8B LCLM的评估。数据集配置包括不同的配置名称和对应的数据文件路径。此外,README还提供了加载基准数据的Python代码示例,以及不同语言模型在不同基准上的评估结果。最后,README还提供了引用LOOMBench和LOOM-Scope的相关信息。
创建时间:
2025-07-22
原始信息汇总

LOOMBench 数据集概述

数据集基本信息

数据集特点

  • 用途: 长上下文语言模型评估基准
  • 亮点:
    • 包含12个多样化基准测试
    • 高效评估(8B LCLM评估仅需6小时)
    • 多领域覆盖(推理、检索、生成等)
    • 易于集成的API

数据集配置

数据集包含以下配置(configs):

counting_stars

  • 文件:
    • Counting_Stars/counting_stars_en_reasoning.jsonl
    • Counting_Stars/counting_stars_en_searching.jsonl
    • Counting_Stars/counting_stars_zh_reasoning.jsonl
    • Counting_Stars/counting_stars_zh_searching.jsonl

infinitebench

  • 文件:
    • InfiniteBench/code_debug.jsonl
    • InfiniteBench/code_run.jsonl
    • InfiniteBench/kv_retrieval.jsonl
    • InfiniteBench/longbook_choice_eng.jsonl
    • InfiniteBench/longbook_qa_chn.jsonl
    • InfiniteBench/longbook_qa_eng.jsonl
    • InfiniteBench/longdialogue_qa_eng.jsonl
    • InfiniteBench/math_find.jsonl
    • InfiniteBench/number_string.jsonl
    • InfiniteBench/passkey.jsonl

leval

  • 文件:
    • LEval/codeU.jsonl
    • LEval/coursera.jsonl
    • LEval/financial_qa.jsonl
    • LEval/gov_report_summ.jsonl
    • LEval/gsm100.jsonl
    • LEval/legal_contract_qa.jsonl
    • LEval/meeting_summ.jsonl
    • LEval/multidoc_qa.jsonl
    • LEval/narrative_qa.jsonl
    • LEval/natural_question.jsonl
    • LEval/news_summ.jsonl
    • LEval/paper_assistant.jsonl
    • LEval/patent_summ.jsonl
    • LEval/quality.jsonl
    • LEval/review_summ.jsonl
    • LEval/sci_fi.jsonl
    • LEval/scientific_qa.jsonl
    • LEval/topic_retrieval_longchat.jsonl
    • LEval/tpo.jsonl
    • LEval/tv_show_summ.jsonl

libra

  • 文件:
    • LIBRA/librusec_history.jsonl
    • LIBRA/librusec_mhqa.jsonl
    • LIBRA/long_context_multiq.jsonl
    • LIBRA/matreshka_names.jsonl
    • LIBRA/matreshka_yes_no.jsonl
    • LIBRA/passkey.jsonl
    • LIBRA/passkey_with_librusec.jsonl
    • LIBRA/ru_2wikimultihopqa.jsonl
    • LIBRA/ru_babilong_qa1.jsonl
    • LIBRA/ru_babilong_qa2.jsonl
    • LIBRA/ru_babilong_qa3.jsonl
    • LIBRA/ru_babilong_qa4.jsonl
    • LIBRA/ru_babilong_qa5.jsonl
    • LIBRA/ru_gsm100.jsonl
    • LIBRA/ru_qasper.jsonl
    • LIBRA/ru_quality.jsonl
    • LIBRA/ru_sci_abstract_retrieval.jsonl
    • LIBRA/ru_sci_fi.jsonl
    • LIBRA/ru_sci_passage_count.jsonl
    • LIBRA/ru_tpo.jsonl
    • LIBRA/ru_trec.jsonl

lveval_recall_qa

  • 文件:
    • LVEval/cmrc_mixup_128k.jsonl
    • LVEval/cmrc_mixup_16k.jsonl
    • LVEval/cmrc_mixup_32k.jsonl
    • LVEval/cmrc_mixup_64k.jsonl
    • LVEval/factrecall_en_128k.jsonl
    • LVEval/factrecall_en_16k.jsonl
    • LVEval/factrecall_en_32k.jsonl
    • LVEval/factrecall_en_64k.jsonl
    • LVEval/factrecall_zh_128k.jsonl
    • LVEval/factrecall_zh_16k.jsonl
    • LVEval/factrecall_zh_32k.jsonl
    • LVEval/factrecall_zh_64k.jsonl

lveval_dureader

  • 文件:
    • LVEval/dureader_mixup_128k.jsonl
    • LVEval/dureader_mixup_16k.jsonl
    • LVEval/dureader_mixup_32k.jsonl
    • LVEval/dureader_mixup_64k.jsonl

lveval_multidomain_qa

  • 文件:
    • LVEval/hotpotwikiqa_mixup_128k.jsonl
    • LVEval/hotpotwikiqa_mixup_16k.jsonl
    • LVEval/hotpotwikiqa_mixup_32k.jsonl
    • LVEval/hotpotwikiqa_mixup_64k.jsonl
    • LVEval/lic_mixup_128k.jsonl
    • LVEval/lic_mixup_16k.jsonl
    • LVEval/lic_mixup_32k.jsonl
    • LVEval/lic_mixup_64k.jsonl
    • LVEval/multifieldqa_en_mixup_128k.jsonl
    • LVEval/multifieldqa_en_mixup_16k.jsonl
    • LVEval/multifieldqa_en_mixup_32k.jsonl
    • LVEval/multifieldqa_en_mixup_64k.jsonl
    • LVEval/multifieldqa_zh_mixup_128k.jsonl
    • LVEval/multifieldqa_zh_mixup_16k.jsonl
    • LVEval/multifieldqa_zh_mixup_32k.jsonl
    • LVEval/multifieldqa_zh_mixup_64k.jsonl

lveval_reasoning

  • 文件:
    • LVEval/loogle_CR_mixup_128k.jsonl
    • LVEval/loogle_CR_mixup_16k.jsonl
    • LVEval/loogle_CR_mixup_32k.jsonl
    • LVEval/loogle_CR_mixup_64k.jsonl
    • LVEval/loogle_MIR_mixup_128k.jsonl
    • LVEval/loogle_MIR_mixup_16k.jsonl
    • LVEval/loogle_MIR_mixup_32k.jsonl
    • LVEval/loogle_MIR_mixup_64k.jsonl
    • LVEval/loogle_SD_mixup_128k.jsonl
    • LVEval/loogle_SD_mixup_16k.jsonl
    • LVEval/loogle_SD_mixup_32k.jsonl
    • LVEval/loogle_SD_mixup_64k.jsonl

l_citeeval

  • 文件:
    • L_CiteEval/L-CiteEval-Data_2wikimultihopqa.jsonl
    • L_CiteEval/L-CiteEval-Data_counting_stars.jsonl
    • L_CiteEval/L-CiteEval-Data_dialsim.jsonl
    • L_CiteEval/L-CiteEval-Data_gov_report.jsonl
    • L_CiteEval/L-CiteEval-Data_hotpotqa.jsonl
    • L_CiteEval/L-CiteEval-Data_locomo.jsonl
    • L_CiteEval/L-CiteEval-Data_multi_news.jsonl
    • L_CiteEval/L-CiteEval-Data_narrativeqa.jsonl
    • L_CiteEval/L-CiteEval-Data_natural_questions.jsonl
    • L_CiteEval/L-CiteEval-Data_niah.jsonl
    • L_CiteEval/L-CiteEval-Data_qmsum.jsonl

longbench

  • 文件:
    • LongBench/2wikimqa.jsonl
    • LongBench/dureader.jsonl
    • LongBench/gov_report.jsonl
    • LongBench/hotpotqa.jsonl
    • LongBench/lcc.jsonl
    • LongBench/lsht.jsonl
    • LongBench/multi_news.jsonl
    • LongBench/multifieldqa_en.jsonl
    • LongBench/multifieldqa_zh.jsonl
    • LongBench/musique.jsonl
    • LongBench/narrativeqa.jsonl
    • LongBench/passage_count.jsonl
    • LongBench/passage_retrieval_en.jsonl
    • LongBench/passage_retrieval_zh.jsonl
    • LongBench/qasper.jsonl
    • LongBench/qmsum.jsonl
    • LongBench/repobench-p.jsonl
    • LongBench/samsum.jsonl
    • LongBench/trec.jsonl
    • LongBench/triviaqa.jsonl
    • LongBench/vcsum.jsonl

longbench_v2

  • 文件:
    • LongBench_v2/longbench_v2.jsonl

longins_gist

  • 文件:
    • LongIns/GIST_1024.jsonl
    • LongIns/GIST_16384.jsonl
    • LongIns/GIST_2048.jsonl
    • LongIns/GIST_256.jsonl
    • LongIns/GIST_4096.jsonl
    • LongIns/GIST_512.jsonl
    • LongIns/GIST_8192.jsonl

longins_list

  • 文件:
    • LongIns/LIST_256.jsonl
    • LongIns/LIST_1024.jsonl
    • LongIns/LIST_16384.jsonl
    • LongIns/LIST_2048.jsonl
    • LongIns/LIST_4096.jsonl
    • LongIns/LIST_512.jsonl
    • LongIns/LIST_8192.jsonl

longwriter

  • 文件:
    • LongWriter/longbench_write.jsonl
    • LongWriter/longbench_write_en.jsonl
    • LongWriter/longwrite_ruler.jsonl

niah

  • 文件:
    • NIAH/niah.jsonl

ruler

  • 文件:
    • RULER/niah_multikey_1_131072.jsonl
    • RULER/niah_multikey_1_16384.jsonl
    • RULER/niah_multikey_1_32768.jsonl
    • RULER/niah_multikey_1_4096.jsonl
    • RULER/niah_multikey_1_65536.jsonl
    • RULER/niah_multikey_1_8192.jsonl
    • RULER/niah_multikey_2_131072.jsonl
    • RULER/niah_multikey_2_16384.jsonl
    • RULER/niah_multikey_2_32768.jsonl
    • RULER/niah_multikey_2_4096.jsonl
    • RULER/niah_multikey_2_65536.jsonl
    • RULER/niah_multikey_2_8192.jsonl
    • RULER/niah_multikey_3_131072.jsonl
    • RULER/niah_multikey_3_16384.jsonl
    • RULER/niah_multikey_3_32768.jsonl
    • RULER/niah_multikey_3_4096.jsonl
    • RULER/niah_multikey_3_65536.jsonl
    • RULER/niah_multikey_3_8192.jsonl
    • RULER/niah_multiquery_131072.jsonl
    • RULER/niah_multiquery_16384.jsonl
    • RULER/niah_multiquery_32768.jsonl
    • RULER/niah_multiquery_4096.jsonl
    • RULER/niah_multiquery_65536.jsonl
    • RULER/niah_multiquery_8192.jsonl
    • RULER/niah_multivalue_131072.jsonl
    • RULER/niah_multivalue_16384.jsonl
    • RULER/niah_multivalue_32768.jsonl
    • RULER/niah_multivalue_4096.jsonl
    • RULER/niah_multivalue_65536.jsonl
    • RULER/niah_multivalue_8192.jsonl
    • RULER/niah_single_1_131072.jsonl
    • RULER/niah_single_1_16384.jsonl
    • RULER/niah_single_1_32768.jsonl
    • RULER/niah_single_1_4096.jsonl
    • RULER/niah_single_1_65536.jsonl
    • RULER/niah_single_1_8192.jsonl
    • RULER/niah_single_2_131072.jsonl
    • RULER/niah_single_2_16384.jsonl
    • RULER/niah_single_2_32768.jsonl
    • RULER/niah_single_2_4096.jsonl
    • RULER/niah_single_2_65536.jsonl
    • RULER/niah_single_2_8192.jsonl
    • RULER/niah_single_3_131072.jsonl
    • RULER/niah_single_3_16384.jsonl
    • RULER/niah_single_3_32768.jsonl
    • RULER/niah_single_3_4096.jsonl
    • RULER/niah_single_3_65536.jsonl
    • RULER/niah_single_3_8192.jsonl
    • RULER/qa_1_131072.jsonl
    • RULER/qa_1_16384.jsonl
    • RULER/qa_1_32768.jsonl
    • RULER/qa_1_4096.jsonl
    • RULER/qa_1_65536.jsonl
    • RULER/qa_1_8192.jsonl
    • RULER/qa_2_131072.jsonl
    • RULER/qa_2_16384.jsonl
    • RULER/qa_2_32768.jsonl
    • RULER/qa_2_4096.jsonl
    • RULER/qa_2_65536.jsonl
    • RULER/qa_2_8192.jsonl

babilong

  • 文件:
    • babilong/qa1_0k.jsonl
    • babilong/qa1_128k.jsonl
    • babilong/qa1_16k.jsonl
    • babilong/qa1_1k.jsonl
    • babilong/qa1_2k.jsonl
    • babilong/qa1_32k.jsonl
    • babilong/qa1_4k.jsonl
    • babilong/qa1_64k.jsonl
    • babilong/qa1_8k.jsonl
    • babilong/qa2_0k.jsonl
    • babilong/qa2_128k.jsonl
    • babilong/qa2_16k.jsonl
    • babilong/qa2_1k.jsonl
    • babilong/qa2_2k.jsonl
    • babilong/qa2_32k.jsonl
    • babilong/qa2_4k.jsonl
    • babilong/qa2_64k.jsonl
    • babilong/qa2_8k.jsonl
    • babilong/qa3_0k.jsonl
    • babilong/qa3_128k.jsonl
    • babilong/qa3_16k.jsonl
    • babilong/qa3_1k.jsonl
    • babilong/qa3_2k.jsonl
    • babilong/qa3_32k.jsonl
    • babilong/qa3_4k.jsonl
    • babilong/qa3_64k.jsonl
    • babilong/qa3_8k.jsonl
    • babilong/qa4_0k.jsonl
    • babilong/qa4_128k.jsonl
    • babilong/qa4_16k.jsonl
    • babilong/qa4_1k.jsonl
    • babilong/qa4_2k.jsonl
    • babilong/qa4_32k.jsonl
    • babilong/qa4_4k.jsonl
    • b
搜集汇总
数据集介绍
main_image_url
构建方式
LOOMBench作为长上下文语言模型评估的黄金标准,其构建过程体现了严谨的学术方法论。数据集通过整合12个经过严格筛选的基准测试集合而成,涵盖推理、检索和生成等多个领域。采用模块化架构设计,每个子基准均以标准化JSONL格式存储,支持从128k到131072 tokens的多样化上下文长度测试。数据采集过程注重多语言覆盖,包含中英双语语料,并通过专家验证确保样本质量。
特点
该数据集最显著的特征在于其多维度的评估体系设计。不仅包含传统QA任务,还创新性地整合了代码调试、长文档摘要等复杂场景。各子基准具有鲜明的领域特性,如LEval侧重学术文本理解,RULER专注于键值检索性能。数据规模呈现阶梯式分布,从256 tokens到16384 tokens的多种长度配置,为模型上下文窗口评估提供连续谱系。测试样本均经过人工校验,确保问题设计的科学性和答案标注的精确度。
使用方法
使用该数据集时,可通过HuggingFace标准接口实现灵活加载。支持整体调用或按需选择特定子基准,如LEval或LongBench等。评估流程建议采用官方提供的标准化指标,包括准确率、召回率和F1值等。对于超长文本任务,需特别注意内存管理和批处理参数设置。数据集兼容主流深度学习框架,并附有详细的评估脚本示例,便于研究者快速复现基准测试结果。
背景与挑战
背景概述
LOOMBench是由LOOM-Scope研究团队于2025年推出的长上下文语言模型评估基准,旨在解决当前大语言模型在长文本处理能力评估方面的不足。该数据集整合了12个经过精心筛选的子基准测试,覆盖推理、检索、生成等多领域任务,由清华大学等机构联合开发。其创新性在于将传统需要数天的评估流程压缩至6小时内完成,为研究社区提供了高效、标准化的评估工具,显著推动了长上下文模型技术的发展与应用。
当前挑战
构建LOOMBench面临双重挑战:在领域问题层面,需解决长文本建模中的关键难题,包括远距离依赖捕捉、多跳推理能力评估,以及跨文档信息整合等复杂任务;在技术实现层面,研究人员需平衡评估效率与全面性,设计能够反映真实长文本场景的多样化任务,同时确保不同长度文本(从256 tokens到128k tokens)评估的一致性。数据集的跨语言特性(中英双语)和领域多样性(涵盖金融、法律、科技等)进一步增加了标注质量控制和评估标准统一的复杂度。
常用场景
经典使用场景
在自然语言处理领域,LOOMBench作为长上下文语言模型评估的黄金标准,其经典使用场景主要体现在对模型长文本理解能力的系统性测试。该数据集通过12个跨领域基准测试,包括代码调试、多文档问答、科学摘要检索等任务,全面评估模型在超长上下文环境下的推理、检索和生成能力。研究人员可基于不同上下文窗口尺寸(从256到131072 tokens)的测试集,精确量化模型在极端长文本场景下的性能衰减规律。
解决学术问题
LOOMBench有效解决了长上下文建模领域的三大核心问题:首先,通过标准化评估流程消除了不同研究间的度量差异,使得模型性能可比性显著提升;其次,设计的多样化任务体系揭示了模型在超长文本处理中的能力边界,如RULER基准暴露了关键信息检索的瓶颈;更重要的是,其细粒度的评估维度为解释模型长文本处理机制提供了实证基础,例如通过BaBILong测试可量化分析位置编码算法的有效性。
衍生相关工作
该数据集已催生系列重要研究成果,包括Qwen3-14B等顶尖长上下文模型的架构创新。其衍生的LOOM-Scope框架成为评估范式的新标准,被Cohere-Command等商业模型采用为官方测试基准。相关论文提出的位置敏感衰减指标启发了Phi-3-Mini的位置编码改进,而跨基准相关性分析则推动了GLM-4的多任务学习策略优化。数据集构建方法论更被迁移至蛋白质序列预测等跨领域研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作