LOOMBench

Hugging Face2025-07-22 更新2025-07-23 收录

下载链接：

https://huggingface.co/datasets/AmamiSora/LOOMBench

下载链接

链接失效反馈

官方服务：

资源简介：

LOOMBench是一个用于评估长上下文语言模型的基准数据集。它包含12个多样化的基准，涵盖推理、检索和生成等多个领域。LOOMBench提供高效的评估流程，可以在6小时内完成8B LCLM的评估。数据集配置包括不同的配置名称和对应的数据文件路径。此外，README还提供了加载基准数据的Python代码示例，以及不同语言模型在不同基准上的评估结果。最后，README还提供了引用LOOMBench和LOOM-Scope的相关信息。

创建时间：

2025-07-22

原始信息汇总

LOOMBench 数据集概述

数据集基本信息

名称: LOOMBench (Long-Context Language Model Evaluation Benchmark)
维护者: AmamiSora
论文: LOOM-Scope: a comprehensive and efficient LOng-cOntext Model evaluation framework
代码仓库: GitHub
项目主页: Project Page
文档: ReadTheDocs
数据集地址: HuggingFace

数据集特点

用途: 长上下文语言模型评估基准
亮点:
- 包含12个多样化基准测试
- 高效评估（8B LCLM评估仅需6小时）
- 多领域覆盖（推理、检索、生成等）
- 易于集成的API

数据集配置

数据集包含以下配置（configs）:

counting_stars

文件:
- Counting_Stars/counting_stars_en_reasoning.jsonl
- Counting_Stars/counting_stars_en_searching.jsonl
- Counting_Stars/counting_stars_zh_reasoning.jsonl
- Counting_Stars/counting_stars_zh_searching.jsonl

infinitebench

文件:
- InfiniteBench/code_debug.jsonl
- InfiniteBench/code_run.jsonl
- InfiniteBench/kv_retrieval.jsonl
- InfiniteBench/longbook_choice_eng.jsonl
- InfiniteBench/longbook_qa_chn.jsonl
- InfiniteBench/longbook_qa_eng.jsonl
- InfiniteBench/longdialogue_qa_eng.jsonl
- InfiniteBench/math_find.jsonl
- InfiniteBench/number_string.jsonl
- InfiniteBench/passkey.jsonl

leval

文件:
- LEval/codeU.jsonl
- LEval/coursera.jsonl
- LEval/financial_qa.jsonl
- LEval/gov_report_summ.jsonl
- LEval/gsm100.jsonl
- LEval/legal_contract_qa.jsonl
- LEval/meeting_summ.jsonl
- LEval/multidoc_qa.jsonl
- LEval/narrative_qa.jsonl
- LEval/natural_question.jsonl
- LEval/news_summ.jsonl
- LEval/paper_assistant.jsonl
- LEval/patent_summ.jsonl
- LEval/quality.jsonl
- LEval/review_summ.jsonl
- LEval/sci_fi.jsonl
- LEval/scientific_qa.jsonl
- LEval/topic_retrieval_longchat.jsonl
- LEval/tpo.jsonl
- LEval/tv_show_summ.jsonl

libra

文件:
- LIBRA/librusec_history.jsonl
- LIBRA/librusec_mhqa.jsonl
- LIBRA/long_context_multiq.jsonl
- LIBRA/matreshka_names.jsonl
- LIBRA/matreshka_yes_no.jsonl
- LIBRA/passkey.jsonl
- LIBRA/passkey_with_librusec.jsonl
- LIBRA/ru_2wikimultihopqa.jsonl
- LIBRA/ru_babilong_qa1.jsonl
- LIBRA/ru_babilong_qa2.jsonl
- LIBRA/ru_babilong_qa3.jsonl
- LIBRA/ru_babilong_qa4.jsonl
- LIBRA/ru_babilong_qa5.jsonl
- LIBRA/ru_gsm100.jsonl
- LIBRA/ru_qasper.jsonl
- LIBRA/ru_quality.jsonl
- LIBRA/ru_sci_abstract_retrieval.jsonl
- LIBRA/ru_sci_fi.jsonl
- LIBRA/ru_sci_passage_count.jsonl
- LIBRA/ru_tpo.jsonl
- LIBRA/ru_trec.jsonl

lveval_recall_qa

文件:
- LVEval/cmrc_mixup_128k.jsonl
- LVEval/cmrc_mixup_16k.jsonl
- LVEval/cmrc_mixup_32k.jsonl
- LVEval/cmrc_mixup_64k.jsonl
- LVEval/factrecall_en_128k.jsonl
- LVEval/factrecall_en_16k.jsonl
- LVEval/factrecall_en_32k.jsonl
- LVEval/factrecall_en_64k.jsonl
- LVEval/factrecall_zh_128k.jsonl
- LVEval/factrecall_zh_16k.jsonl
- LVEval/factrecall_zh_32k.jsonl
- LVEval/factrecall_zh_64k.jsonl

lveval_dureader

文件:
- LVEval/dureader_mixup_128k.jsonl
- LVEval/dureader_mixup_16k.jsonl
- LVEval/dureader_mixup_32k.jsonl
- LVEval/dureader_mixup_64k.jsonl

lveval_multidomain_qa

文件:
- LVEval/hotpotwikiqa_mixup_128k.jsonl
- LVEval/hotpotwikiqa_mixup_16k.jsonl
- LVEval/hotpotwikiqa_mixup_32k.jsonl
- LVEval/hotpotwikiqa_mixup_64k.jsonl
- LVEval/lic_mixup_128k.jsonl
- LVEval/lic_mixup_16k.jsonl
- LVEval/lic_mixup_32k.jsonl
- LVEval/lic_mixup_64k.jsonl
- LVEval/multifieldqa_en_mixup_128k.jsonl
- LVEval/multifieldqa_en_mixup_16k.jsonl
- LVEval/multifieldqa_en_mixup_32k.jsonl
- LVEval/multifieldqa_en_mixup_64k.jsonl
- LVEval/multifieldqa_zh_mixup_128k.jsonl
- LVEval/multifieldqa_zh_mixup_16k.jsonl
- LVEval/multifieldqa_zh_mixup_32k.jsonl
- LVEval/multifieldqa_zh_mixup_64k.jsonl

lveval_reasoning

文件:
- LVEval/loogle_CR_mixup_128k.jsonl
- LVEval/loogle_CR_mixup_16k.jsonl
- LVEval/loogle_CR_mixup_32k.jsonl
- LVEval/loogle_CR_mixup_64k.jsonl
- LVEval/loogle_MIR_mixup_128k.jsonl
- LVEval/loogle_MIR_mixup_16k.jsonl
- LVEval/loogle_MIR_mixup_32k.jsonl
- LVEval/loogle_MIR_mixup_64k.jsonl
- LVEval/loogle_SD_mixup_128k.jsonl
- LVEval/loogle_SD_mixup_16k.jsonl
- LVEval/loogle_SD_mixup_32k.jsonl
- LVEval/loogle_SD_mixup_64k.jsonl

l_citeeval

文件:
- L_CiteEval/L-CiteEval-Data_2wikimultihopqa.jsonl
- L_CiteEval/L-CiteEval-Data_counting_stars.jsonl
- L_CiteEval/L-CiteEval-Data_dialsim.jsonl
- L_CiteEval/L-CiteEval-Data_gov_report.jsonl
- L_CiteEval/L-CiteEval-Data_hotpotqa.jsonl
- L_CiteEval/L-CiteEval-Data_locomo.jsonl
- L_CiteEval/L-CiteEval-Data_multi_news.jsonl
- L_CiteEval/L-CiteEval-Data_narrativeqa.jsonl
- L_CiteEval/L-CiteEval-Data_natural_questions.jsonl
- L_CiteEval/L-CiteEval-Data_niah.jsonl
- L_CiteEval/L-CiteEval-Data_qmsum.jsonl

longbench

文件:
- LongBench/2wikimqa.jsonl
- LongBench/dureader.jsonl
- LongBench/gov_report.jsonl
- LongBench/hotpotqa.jsonl
- LongBench/lcc.jsonl
- LongBench/lsht.jsonl
- LongBench/multi_news.jsonl
- LongBench/multifieldqa_en.jsonl
- LongBench/multifieldqa_zh.jsonl
- LongBench/musique.jsonl
- LongBench/narrativeqa.jsonl
- LongBench/passage_count.jsonl
- LongBench/passage_retrieval_en.jsonl
- LongBench/passage_retrieval_zh.jsonl
- LongBench/qasper.jsonl
- LongBench/qmsum.jsonl
- LongBench/repobench-p.jsonl
- LongBench/samsum.jsonl
- LongBench/trec.jsonl
- LongBench/triviaqa.jsonl
- LongBench/vcsum.jsonl

longbench_v2

文件:
- LongBench_v2/longbench_v2.jsonl

longins_gist

文件:
- LongIns/GIST_1024.jsonl
- LongIns/GIST_16384.jsonl
- LongIns/GIST_2048.jsonl
- LongIns/GIST_256.jsonl
- LongIns/GIST_4096.jsonl
- LongIns/GIST_512.jsonl
- LongIns/GIST_8192.jsonl

longins_list

文件:
- LongIns/LIST_256.jsonl
- LongIns/LIST_1024.jsonl
- LongIns/LIST_16384.jsonl
- LongIns/LIST_2048.jsonl
- LongIns/LIST_4096.jsonl
- LongIns/LIST_512.jsonl
- LongIns/LIST_8192.jsonl

longwriter

文件:
- LongWriter/longbench_write.jsonl
- LongWriter/longbench_write_en.jsonl
- LongWriter/longwrite_ruler.jsonl

niah

文件:
- NIAH/niah.jsonl

ruler

文件:
- RULER/niah_multikey_1_131072.jsonl
- RULER/niah_multikey_1_16384.jsonl
- RULER/niah_multikey_1_32768.jsonl
- RULER/niah_multikey_1_4096.jsonl
- RULER/niah_multikey_1_65536.jsonl
- RULER/niah_multikey_1_8192.jsonl
- RULER/niah_multikey_2_131072.jsonl
- RULER/niah_multikey_2_16384.jsonl
- RULER/niah_multikey_2_32768.jsonl
- RULER/niah_multikey_2_4096.jsonl
- RULER/niah_multikey_2_65536.jsonl
- RULER/niah_multikey_2_8192.jsonl
- RULER/niah_multikey_3_131072.jsonl
- RULER/niah_multikey_3_16384.jsonl
- RULER/niah_multikey_3_32768.jsonl
- RULER/niah_multikey_3_4096.jsonl
- RULER/niah_multikey_3_65536.jsonl
- RULER/niah_multikey_3_8192.jsonl
- RULER/niah_multiquery_131072.jsonl
- RULER/niah_multiquery_16384.jsonl
- RULER/niah_multiquery_32768.jsonl
- RULER/niah_multiquery_4096.jsonl
- RULER/niah_multiquery_65536.jsonl
- RULER/niah_multiquery_8192.jsonl
- RULER/niah_multivalue_131072.jsonl
- RULER/niah_multivalue_16384.jsonl
- RULER/niah_multivalue_32768.jsonl
- RULER/niah_multivalue_4096.jsonl
- RULER/niah_multivalue_65536.jsonl
- RULER/niah_multivalue_8192.jsonl
- RULER/niah_single_1_131072.jsonl
- RULER/niah_single_1_16384.jsonl
- RULER/niah_single_1_32768.jsonl
- RULER/niah_single_1_4096.jsonl
- RULER/niah_single_1_65536.jsonl
- RULER/niah_single_1_8192.jsonl
- RULER/niah_single_2_131072.jsonl
- RULER/niah_single_2_16384.jsonl
- RULER/niah_single_2_32768.jsonl
- RULER/niah_single_2_4096.jsonl
- RULER/niah_single_2_65536.jsonl
- RULER/niah_single_2_8192.jsonl
- RULER/niah_single_3_131072.jsonl
- RULER/niah_single_3_16384.jsonl
- RULER/niah_single_3_32768.jsonl
- RULER/niah_single_3_4096.jsonl
- RULER/niah_single_3_65536.jsonl
- RULER/niah_single_3_8192.jsonl
- RULER/qa_1_131072.jsonl
- RULER/qa_1_16384.jsonl
- RULER/qa_1_32768.jsonl
- RULER/qa_1_4096.jsonl
- RULER/qa_1_65536.jsonl
- RULER/qa_1_8192.jsonl
- RULER/qa_2_131072.jsonl
- RULER/qa_2_16384.jsonl
- RULER/qa_2_32768.jsonl
- RULER/qa_2_4096.jsonl
- RULER/qa_2_65536.jsonl
- RULER/qa_2_8192.jsonl

babilong

文件:
- babilong/qa1_0k.jsonl
- babilong/qa1_128k.jsonl
- babilong/qa1_16k.jsonl
- babilong/qa1_1k.jsonl
- babilong/qa1_2k.jsonl
- babilong/qa1_32k.jsonl
- babilong/qa1_4k.jsonl
- babilong/qa1_64k.jsonl
- babilong/qa1_8k.jsonl
- babilong/qa2_0k.jsonl
- babilong/qa2_128k.jsonl
- babilong/qa2_16k.jsonl
- babilong/qa2_1k.jsonl
- babilong/qa2_2k.jsonl
- babilong/qa2_32k.jsonl
- babilong/qa2_4k.jsonl
- babilong/qa2_64k.jsonl
- babilong/qa2_8k.jsonl
- babilong/qa3_0k.jsonl
- babilong/qa3_128k.jsonl
- babilong/qa3_16k.jsonl
- babilong/qa3_1k.jsonl
- babilong/qa3_2k.jsonl
- babilong/qa3_32k.jsonl
- babilong/qa3_4k.jsonl
- babilong/qa3_64k.jsonl
- babilong/qa3_8k.jsonl
- babilong/qa4_0k.jsonl
- babilong/qa4_128k.jsonl
- babilong/qa4_16k.jsonl
- babilong/qa4_1k.jsonl
- babilong/qa4_2k.jsonl
- babilong/qa4_32k.jsonl
- babilong/qa4_4k.jsonl
- b

搜集汇总

数据集介绍

构建方式

LOOMBench作为长上下文语言模型评估的黄金标准，其构建过程体现了严谨的学术方法论。数据集通过整合12个经过严格筛选的基准测试集合而成，涵盖推理、检索和生成等多个领域。采用模块化架构设计，每个子基准均以标准化JSONL格式存储，支持从128k到131072 tokens的多样化上下文长度测试。数据采集过程注重多语言覆盖，包含中英双语语料，并通过专家验证确保样本质量。

特点

该数据集最显著的特征在于其多维度的评估体系设计。不仅包含传统QA任务，还创新性地整合了代码调试、长文档摘要等复杂场景。各子基准具有鲜明的领域特性，如LEval侧重学术文本理解，RULER专注于键值检索性能。数据规模呈现阶梯式分布，从256 tokens到16384 tokens的多种长度配置，为模型上下文窗口评估提供连续谱系。测试样本均经过人工校验，确保问题设计的科学性和答案标注的精确度。

使用方法

使用该数据集时，可通过HuggingFace标准接口实现灵活加载。支持整体调用或按需选择特定子基准，如LEval或LongBench等。评估流程建议采用官方提供的标准化指标，包括准确率、召回率和F1值等。对于超长文本任务，需特别注意内存管理和批处理参数设置。数据集兼容主流深度学习框架，并附有详细的评估脚本示例，便于研究者快速复现基准测试结果。

背景与挑战

背景概述

LOOMBench是由LOOM-Scope研究团队于2025年推出的长上下文语言模型评估基准，旨在解决当前大语言模型在长文本处理能力评估方面的不足。该数据集整合了12个经过精心筛选的子基准测试，覆盖推理、检索、生成等多领域任务，由清华大学等机构联合开发。其创新性在于将传统需要数天的评估流程压缩至6小时内完成，为研究社区提供了高效、标准化的评估工具，显著推动了长上下文模型技术的发展与应用。

当前挑战

构建LOOMBench面临双重挑战：在领域问题层面，需解决长文本建模中的关键难题，包括远距离依赖捕捉、多跳推理能力评估，以及跨文档信息整合等复杂任务；在技术实现层面，研究人员需平衡评估效率与全面性，设计能够反映真实长文本场景的多样化任务，同时确保不同长度文本（从256 tokens到128k tokens）评估的一致性。数据集的跨语言特性（中英双语）和领域多样性（涵盖金融、法律、科技等）进一步增加了标注质量控制和评估标准统一的复杂度。

常用场景

经典使用场景

在自然语言处理领域，LOOMBench作为长上下文语言模型评估的黄金标准，其经典使用场景主要体现在对模型长文本理解能力的系统性测试。该数据集通过12个跨领域基准测试，包括代码调试、多文档问答、科学摘要检索等任务，全面评估模型在超长上下文环境下的推理、检索和生成能力。研究人员可基于不同上下文窗口尺寸（从256到131072 tokens）的测试集，精确量化模型在极端长文本场景下的性能衰减规律。

解决学术问题

LOOMBench有效解决了长上下文建模领域的三大核心问题：首先，通过标准化评估流程消除了不同研究间的度量差异，使得模型性能可比性显著提升；其次，设计的多样化任务体系揭示了模型在超长文本处理中的能力边界，如RULER基准暴露了关键信息检索的瓶颈；更重要的是，其细粒度的评估维度为解释模型长文本处理机制提供了实证基础，例如通过BaBILong测试可量化分析位置编码算法的有效性。

衍生相关工作

该数据集已催生系列重要研究成果，包括Qwen3-14B等顶尖长上下文模型的架构创新。其衍生的LOOM-Scope框架成为评估范式的新标准，被Cohere-Command等商业模型采用为官方测试基准。相关论文提出的位置敏感衰减指标启发了Phi-3-Mini的位置编码改进，而跨基准相关性分析则推动了GLM-4的多任务学习策略优化。数据集构建方法论更被迁移至蛋白质序列预测等跨领域研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集