LOOMBench
收藏Hugging Face2025-07-22 更新2025-07-23 收录
下载链接:
https://huggingface.co/datasets/AmamiSora/LOOMBench
下载链接
链接失效反馈官方服务:
资源简介:
LOOMBench是一个用于评估长上下文语言模型的基准数据集。它包含12个多样化的基准,涵盖推理、检索和生成等多个领域。LOOMBench提供高效的评估流程,可以在6小时内完成8B LCLM的评估。数据集配置包括不同的配置名称和对应的数据文件路径。此外,README还提供了加载基准数据的Python代码示例,以及不同语言模型在不同基准上的评估结果。最后,README还提供了引用LOOMBench和LOOM-Scope的相关信息。
创建时间:
2025-07-22
原始信息汇总
LOOMBench 数据集概述
数据集基本信息
- 名称: LOOMBench (Long-Context Language Model Evaluation Benchmark)
- 维护者: AmamiSora
- 论文: LOOM-Scope: a comprehensive and efficient LOng-cOntext Model evaluation framework
- 代码仓库: GitHub
- 项目主页: Project Page
- 文档: ReadTheDocs
- 数据集地址: HuggingFace
数据集特点
- 用途: 长上下文语言模型评估基准
- 亮点:
- 包含12个多样化基准测试
- 高效评估(8B LCLM评估仅需6小时)
- 多领域覆盖(推理、检索、生成等)
- 易于集成的API
数据集配置
数据集包含以下配置(configs):
counting_stars
- 文件:
- Counting_Stars/counting_stars_en_reasoning.jsonl
- Counting_Stars/counting_stars_en_searching.jsonl
- Counting_Stars/counting_stars_zh_reasoning.jsonl
- Counting_Stars/counting_stars_zh_searching.jsonl
infinitebench
- 文件:
- InfiniteBench/code_debug.jsonl
- InfiniteBench/code_run.jsonl
- InfiniteBench/kv_retrieval.jsonl
- InfiniteBench/longbook_choice_eng.jsonl
- InfiniteBench/longbook_qa_chn.jsonl
- InfiniteBench/longbook_qa_eng.jsonl
- InfiniteBench/longdialogue_qa_eng.jsonl
- InfiniteBench/math_find.jsonl
- InfiniteBench/number_string.jsonl
- InfiniteBench/passkey.jsonl
leval
- 文件:
- LEval/codeU.jsonl
- LEval/coursera.jsonl
- LEval/financial_qa.jsonl
- LEval/gov_report_summ.jsonl
- LEval/gsm100.jsonl
- LEval/legal_contract_qa.jsonl
- LEval/meeting_summ.jsonl
- LEval/multidoc_qa.jsonl
- LEval/narrative_qa.jsonl
- LEval/natural_question.jsonl
- LEval/news_summ.jsonl
- LEval/paper_assistant.jsonl
- LEval/patent_summ.jsonl
- LEval/quality.jsonl
- LEval/review_summ.jsonl
- LEval/sci_fi.jsonl
- LEval/scientific_qa.jsonl
- LEval/topic_retrieval_longchat.jsonl
- LEval/tpo.jsonl
- LEval/tv_show_summ.jsonl
libra
- 文件:
- LIBRA/librusec_history.jsonl
- LIBRA/librusec_mhqa.jsonl
- LIBRA/long_context_multiq.jsonl
- LIBRA/matreshka_names.jsonl
- LIBRA/matreshka_yes_no.jsonl
- LIBRA/passkey.jsonl
- LIBRA/passkey_with_librusec.jsonl
- LIBRA/ru_2wikimultihopqa.jsonl
- LIBRA/ru_babilong_qa1.jsonl
- LIBRA/ru_babilong_qa2.jsonl
- LIBRA/ru_babilong_qa3.jsonl
- LIBRA/ru_babilong_qa4.jsonl
- LIBRA/ru_babilong_qa5.jsonl
- LIBRA/ru_gsm100.jsonl
- LIBRA/ru_qasper.jsonl
- LIBRA/ru_quality.jsonl
- LIBRA/ru_sci_abstract_retrieval.jsonl
- LIBRA/ru_sci_fi.jsonl
- LIBRA/ru_sci_passage_count.jsonl
- LIBRA/ru_tpo.jsonl
- LIBRA/ru_trec.jsonl
lveval_recall_qa
- 文件:
- LVEval/cmrc_mixup_128k.jsonl
- LVEval/cmrc_mixup_16k.jsonl
- LVEval/cmrc_mixup_32k.jsonl
- LVEval/cmrc_mixup_64k.jsonl
- LVEval/factrecall_en_128k.jsonl
- LVEval/factrecall_en_16k.jsonl
- LVEval/factrecall_en_32k.jsonl
- LVEval/factrecall_en_64k.jsonl
- LVEval/factrecall_zh_128k.jsonl
- LVEval/factrecall_zh_16k.jsonl
- LVEval/factrecall_zh_32k.jsonl
- LVEval/factrecall_zh_64k.jsonl
lveval_dureader
- 文件:
- LVEval/dureader_mixup_128k.jsonl
- LVEval/dureader_mixup_16k.jsonl
- LVEval/dureader_mixup_32k.jsonl
- LVEval/dureader_mixup_64k.jsonl
lveval_multidomain_qa
- 文件:
- LVEval/hotpotwikiqa_mixup_128k.jsonl
- LVEval/hotpotwikiqa_mixup_16k.jsonl
- LVEval/hotpotwikiqa_mixup_32k.jsonl
- LVEval/hotpotwikiqa_mixup_64k.jsonl
- LVEval/lic_mixup_128k.jsonl
- LVEval/lic_mixup_16k.jsonl
- LVEval/lic_mixup_32k.jsonl
- LVEval/lic_mixup_64k.jsonl
- LVEval/multifieldqa_en_mixup_128k.jsonl
- LVEval/multifieldqa_en_mixup_16k.jsonl
- LVEval/multifieldqa_en_mixup_32k.jsonl
- LVEval/multifieldqa_en_mixup_64k.jsonl
- LVEval/multifieldqa_zh_mixup_128k.jsonl
- LVEval/multifieldqa_zh_mixup_16k.jsonl
- LVEval/multifieldqa_zh_mixup_32k.jsonl
- LVEval/multifieldqa_zh_mixup_64k.jsonl
lveval_reasoning
- 文件:
- LVEval/loogle_CR_mixup_128k.jsonl
- LVEval/loogle_CR_mixup_16k.jsonl
- LVEval/loogle_CR_mixup_32k.jsonl
- LVEval/loogle_CR_mixup_64k.jsonl
- LVEval/loogle_MIR_mixup_128k.jsonl
- LVEval/loogle_MIR_mixup_16k.jsonl
- LVEval/loogle_MIR_mixup_32k.jsonl
- LVEval/loogle_MIR_mixup_64k.jsonl
- LVEval/loogle_SD_mixup_128k.jsonl
- LVEval/loogle_SD_mixup_16k.jsonl
- LVEval/loogle_SD_mixup_32k.jsonl
- LVEval/loogle_SD_mixup_64k.jsonl
l_citeeval
- 文件:
- L_CiteEval/L-CiteEval-Data_2wikimultihopqa.jsonl
- L_CiteEval/L-CiteEval-Data_counting_stars.jsonl
- L_CiteEval/L-CiteEval-Data_dialsim.jsonl
- L_CiteEval/L-CiteEval-Data_gov_report.jsonl
- L_CiteEval/L-CiteEval-Data_hotpotqa.jsonl
- L_CiteEval/L-CiteEval-Data_locomo.jsonl
- L_CiteEval/L-CiteEval-Data_multi_news.jsonl
- L_CiteEval/L-CiteEval-Data_narrativeqa.jsonl
- L_CiteEval/L-CiteEval-Data_natural_questions.jsonl
- L_CiteEval/L-CiteEval-Data_niah.jsonl
- L_CiteEval/L-CiteEval-Data_qmsum.jsonl
longbench
- 文件:
- LongBench/2wikimqa.jsonl
- LongBench/dureader.jsonl
- LongBench/gov_report.jsonl
- LongBench/hotpotqa.jsonl
- LongBench/lcc.jsonl
- LongBench/lsht.jsonl
- LongBench/multi_news.jsonl
- LongBench/multifieldqa_en.jsonl
- LongBench/multifieldqa_zh.jsonl
- LongBench/musique.jsonl
- LongBench/narrativeqa.jsonl
- LongBench/passage_count.jsonl
- LongBench/passage_retrieval_en.jsonl
- LongBench/passage_retrieval_zh.jsonl
- LongBench/qasper.jsonl
- LongBench/qmsum.jsonl
- LongBench/repobench-p.jsonl
- LongBench/samsum.jsonl
- LongBench/trec.jsonl
- LongBench/triviaqa.jsonl
- LongBench/vcsum.jsonl
longbench_v2
- 文件:
- LongBench_v2/longbench_v2.jsonl
longins_gist
- 文件:
- LongIns/GIST_1024.jsonl
- LongIns/GIST_16384.jsonl
- LongIns/GIST_2048.jsonl
- LongIns/GIST_256.jsonl
- LongIns/GIST_4096.jsonl
- LongIns/GIST_512.jsonl
- LongIns/GIST_8192.jsonl
longins_list
- 文件:
- LongIns/LIST_256.jsonl
- LongIns/LIST_1024.jsonl
- LongIns/LIST_16384.jsonl
- LongIns/LIST_2048.jsonl
- LongIns/LIST_4096.jsonl
- LongIns/LIST_512.jsonl
- LongIns/LIST_8192.jsonl
longwriter
- 文件:
- LongWriter/longbench_write.jsonl
- LongWriter/longbench_write_en.jsonl
- LongWriter/longwrite_ruler.jsonl
niah
- 文件:
- NIAH/niah.jsonl
ruler
- 文件:
- RULER/niah_multikey_1_131072.jsonl
- RULER/niah_multikey_1_16384.jsonl
- RULER/niah_multikey_1_32768.jsonl
- RULER/niah_multikey_1_4096.jsonl
- RULER/niah_multikey_1_65536.jsonl
- RULER/niah_multikey_1_8192.jsonl
- RULER/niah_multikey_2_131072.jsonl
- RULER/niah_multikey_2_16384.jsonl
- RULER/niah_multikey_2_32768.jsonl
- RULER/niah_multikey_2_4096.jsonl
- RULER/niah_multikey_2_65536.jsonl
- RULER/niah_multikey_2_8192.jsonl
- RULER/niah_multikey_3_131072.jsonl
- RULER/niah_multikey_3_16384.jsonl
- RULER/niah_multikey_3_32768.jsonl
- RULER/niah_multikey_3_4096.jsonl
- RULER/niah_multikey_3_65536.jsonl
- RULER/niah_multikey_3_8192.jsonl
- RULER/niah_multiquery_131072.jsonl
- RULER/niah_multiquery_16384.jsonl
- RULER/niah_multiquery_32768.jsonl
- RULER/niah_multiquery_4096.jsonl
- RULER/niah_multiquery_65536.jsonl
- RULER/niah_multiquery_8192.jsonl
- RULER/niah_multivalue_131072.jsonl
- RULER/niah_multivalue_16384.jsonl
- RULER/niah_multivalue_32768.jsonl
- RULER/niah_multivalue_4096.jsonl
- RULER/niah_multivalue_65536.jsonl
- RULER/niah_multivalue_8192.jsonl
- RULER/niah_single_1_131072.jsonl
- RULER/niah_single_1_16384.jsonl
- RULER/niah_single_1_32768.jsonl
- RULER/niah_single_1_4096.jsonl
- RULER/niah_single_1_65536.jsonl
- RULER/niah_single_1_8192.jsonl
- RULER/niah_single_2_131072.jsonl
- RULER/niah_single_2_16384.jsonl
- RULER/niah_single_2_32768.jsonl
- RULER/niah_single_2_4096.jsonl
- RULER/niah_single_2_65536.jsonl
- RULER/niah_single_2_8192.jsonl
- RULER/niah_single_3_131072.jsonl
- RULER/niah_single_3_16384.jsonl
- RULER/niah_single_3_32768.jsonl
- RULER/niah_single_3_4096.jsonl
- RULER/niah_single_3_65536.jsonl
- RULER/niah_single_3_8192.jsonl
- RULER/qa_1_131072.jsonl
- RULER/qa_1_16384.jsonl
- RULER/qa_1_32768.jsonl
- RULER/qa_1_4096.jsonl
- RULER/qa_1_65536.jsonl
- RULER/qa_1_8192.jsonl
- RULER/qa_2_131072.jsonl
- RULER/qa_2_16384.jsonl
- RULER/qa_2_32768.jsonl
- RULER/qa_2_4096.jsonl
- RULER/qa_2_65536.jsonl
- RULER/qa_2_8192.jsonl
babilong
- 文件:
- babilong/qa1_0k.jsonl
- babilong/qa1_128k.jsonl
- babilong/qa1_16k.jsonl
- babilong/qa1_1k.jsonl
- babilong/qa1_2k.jsonl
- babilong/qa1_32k.jsonl
- babilong/qa1_4k.jsonl
- babilong/qa1_64k.jsonl
- babilong/qa1_8k.jsonl
- babilong/qa2_0k.jsonl
- babilong/qa2_128k.jsonl
- babilong/qa2_16k.jsonl
- babilong/qa2_1k.jsonl
- babilong/qa2_2k.jsonl
- babilong/qa2_32k.jsonl
- babilong/qa2_4k.jsonl
- babilong/qa2_64k.jsonl
- babilong/qa2_8k.jsonl
- babilong/qa3_0k.jsonl
- babilong/qa3_128k.jsonl
- babilong/qa3_16k.jsonl
- babilong/qa3_1k.jsonl
- babilong/qa3_2k.jsonl
- babilong/qa3_32k.jsonl
- babilong/qa3_4k.jsonl
- babilong/qa3_64k.jsonl
- babilong/qa3_8k.jsonl
- babilong/qa4_0k.jsonl
- babilong/qa4_128k.jsonl
- babilong/qa4_16k.jsonl
- babilong/qa4_1k.jsonl
- babilong/qa4_2k.jsonl
- babilong/qa4_32k.jsonl
- babilong/qa4_4k.jsonl
- b
搜集汇总
数据集介绍

构建方式
LOOMBench作为长上下文语言模型评估的黄金标准,其构建过程体现了严谨的学术方法论。数据集通过整合12个经过严格筛选的基准测试集合而成,涵盖推理、检索和生成等多个领域。采用模块化架构设计,每个子基准均以标准化JSONL格式存储,支持从128k到131072 tokens的多样化上下文长度测试。数据采集过程注重多语言覆盖,包含中英双语语料,并通过专家验证确保样本质量。
特点
该数据集最显著的特征在于其多维度的评估体系设计。不仅包含传统QA任务,还创新性地整合了代码调试、长文档摘要等复杂场景。各子基准具有鲜明的领域特性,如LEval侧重学术文本理解,RULER专注于键值检索性能。数据规模呈现阶梯式分布,从256 tokens到16384 tokens的多种长度配置,为模型上下文窗口评估提供连续谱系。测试样本均经过人工校验,确保问题设计的科学性和答案标注的精确度。
使用方法
使用该数据集时,可通过HuggingFace标准接口实现灵活加载。支持整体调用或按需选择特定子基准,如LEval或LongBench等。评估流程建议采用官方提供的标准化指标,包括准确率、召回率和F1值等。对于超长文本任务,需特别注意内存管理和批处理参数设置。数据集兼容主流深度学习框架,并附有详细的评估脚本示例,便于研究者快速复现基准测试结果。
背景与挑战
背景概述
LOOMBench是由LOOM-Scope研究团队于2025年推出的长上下文语言模型评估基准,旨在解决当前大语言模型在长文本处理能力评估方面的不足。该数据集整合了12个经过精心筛选的子基准测试,覆盖推理、检索、生成等多领域任务,由清华大学等机构联合开发。其创新性在于将传统需要数天的评估流程压缩至6小时内完成,为研究社区提供了高效、标准化的评估工具,显著推动了长上下文模型技术的发展与应用。
当前挑战
构建LOOMBench面临双重挑战:在领域问题层面,需解决长文本建模中的关键难题,包括远距离依赖捕捉、多跳推理能力评估,以及跨文档信息整合等复杂任务;在技术实现层面,研究人员需平衡评估效率与全面性,设计能够反映真实长文本场景的多样化任务,同时确保不同长度文本(从256 tokens到128k tokens)评估的一致性。数据集的跨语言特性(中英双语)和领域多样性(涵盖金融、法律、科技等)进一步增加了标注质量控制和评估标准统一的复杂度。
常用场景
经典使用场景
在自然语言处理领域,LOOMBench作为长上下文语言模型评估的黄金标准,其经典使用场景主要体现在对模型长文本理解能力的系统性测试。该数据集通过12个跨领域基准测试,包括代码调试、多文档问答、科学摘要检索等任务,全面评估模型在超长上下文环境下的推理、检索和生成能力。研究人员可基于不同上下文窗口尺寸(从256到131072 tokens)的测试集,精确量化模型在极端长文本场景下的性能衰减规律。
解决学术问题
LOOMBench有效解决了长上下文建模领域的三大核心问题:首先,通过标准化评估流程消除了不同研究间的度量差异,使得模型性能可比性显著提升;其次,设计的多样化任务体系揭示了模型在超长文本处理中的能力边界,如RULER基准暴露了关键信息检索的瓶颈;更重要的是,其细粒度的评估维度为解释模型长文本处理机制提供了实证基础,例如通过BaBILong测试可量化分析位置编码算法的有效性。
衍生相关工作
该数据集已催生系列重要研究成果,包括Qwen3-14B等顶尖长上下文模型的架构创新。其衍生的LOOM-Scope框架成为评估范式的新标准,被Cohere-Command等商业模型采用为官方测试基准。相关论文提出的位置敏感衰减指标启发了Phi-3-Mini的位置编码改进,而跨基准相关性分析则推动了GLM-4的多任务学习策略优化。数据集构建方法论更被迁移至蛋白质序列预测等跨领域研究。
以上内容由遇见数据集搜集并总结生成



