five

LIMIT

收藏
github2025-08-29 更新2025-08-30 收录
下载链接:
https://github.com/google-deepmind/limit
下载链接
链接失效反馈
官方服务:
资源简介:
LIMIT数据集是基于理论原理设计的,用于压力测试嵌入模型。研究表明,对于任何给定的嵌入维度d,都存在一组无法通过任何查询返回的文档组合。该数据集包含50k个文档和1000个查询,采用MTEB格式组织,包含queries.json、corpus.json和qrels.json文件

The LIMIT Dataset is designed based on theoretical principles for stress-testing embedding models. Research has shown that for any given embedding dimension d, there exists a set of document combinations that cannot be returned by any query. This dataset contains 50,000 documents and 1,000 queries, organized in the MTEB format, including the files queries.json, corpus.json, and qrels.json.
创建时间:
2025-08-29
原始信息汇总

LIMIT 数据集概述

数据集简介

LIMIT 数据集由 Google DeepMind 团队开发,旨在基于理论原理对嵌入模型进行压力测试。该数据集证明对于任何给定的嵌入维度 d,都存在无法通过任何查询返回的文档组合。实验表明即使最先进的模型在该数据集上也表现不佳,这凸显了当前单向量嵌入范式的基本局限性。

数据内容

数据集结构

数据集采用 MTEB 风格格式(json lines),包含三个核心文件:

  • queries.json:包含 1000 个查询,每个查询具有 _idtext 字段
  • corpus.json:包含文档集合,每个文档具有 _idtext 和空 title 字段
  • qrels.json:包含 2000 个相关查询-文档映射,通过 query-idcorpus-id 关联,score 表示相关性

数据集版本

  • 完整数据集(limit):包含 50,000 个文档
  • 小型样本(limit-small):仅包含与查询相关的 46 个文档

代码资源

数据集生成

提供 Jupyter notebook(code/generate_limit_dataset.ipynb)用于从头生成 LIMIT 风格数据集,包含所有必要步骤和依赖项。

自由嵌入实验

提供 Python 脚本(code/free_embedding_experiment.py)用于运行自由嵌入实验。

安装要求

使用 uv 包管理器安装依赖: bash uv venv source .venv/bin/activate uv pip install -r https://raw.githubusercontent.com/google-deepmind/limit/refs/heads/main/code/requirements.txt

评估方法

使用 MTEB 框架进行评估,具体细节参考 MTEB GitHub 仓库。

引用信息

如需使用本工作,请引用以下论文:

@misc{weller2025theoretical, title={On the Theoretical Limitations of Embedding-based Retrieval}, author={Orion Weller and Michael Boratko and Iftekhar Naim and Jinhyuk Lee}, year={2025}, archivePrefix={arXiv}, primaryClass={cs.IR} }

许可信息

  • 软件部分使用 Apache License 2.0 许可
  • 其他材料使用 Creative Commons Attribution 4.0 International License (CC-BY) 许可
  • 非官方 Google 产品
搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索领域,LIMIT数据集的构建基于严格的数学理论推导,通过理论证明任意给定嵌入维度d下存在无法被查询返回的文档组合。该数据集采用生成式方法构建,具体流程通过Jupyter笔记本实现,包含50,000个文档和1,000个查询的完整生成步骤,每个文档和查询均赋予唯一标识符并遵循MTEB标准格式,确保数据结构的规范性与可复现性。
特点
该数据集的核心特征体现在其理论驱动的挑战性设计上,专门针对嵌入模型的固有局限性进行压力测试。数据集包含完整版与精简版两个版本,分别提供50,000个文档和46个相关文档的规模选项,每个文档配备空标题字段以聚焦文本内容分析。其查询-文档相关性映射通过2,000个精确标注的qrels文件实现,为模型评估提供坚实基础,尤其凸显当前单向量嵌入范式在理论边界上的不足。
使用方法
研究人员可通过MTEB评估框架直接加载该数据集进行嵌入模型性能测试,数据集采用标准json行格式确保与主流基准的兼容性。用户可选择完整版或小型样本进行实验,通过提供的Python脚本运行自由嵌入实验,或利用原始生成代码自定义扩展数据集。使用前需通过uv包管理器安装指定依赖环境,所有操作均遵循Apache 2.0和CC-BY开源协议保障学术使用的合法性。
背景与挑战
背景概述
嵌入检索作为信息检索领域的核心范式,近年来在学术与工业界得到广泛应用。2025年,Google LLC的研究团队Orion Weller等人基于理论分析构建了LIMIT数据集,旨在揭示嵌入模型在任意维度d下的根本性局限。该数据集通过严格的理论推导表明,对于任何给定的嵌入维度,总存在某些文档组合无法被查询返回,从而挑战了当前单向量嵌入范式的理论基础。LIMIT的提出不仅深化了对嵌入模型容量边界的理解,更为下一代检索模型的设计提供了关键的理论依据与评估基准。
当前挑战
LIMIT数据集致力于解决嵌入式检索中的理论局限性问题,其核心挑战在于证明任何有限维度的嵌入模型均存在无法覆盖的文档空间区域。构建过程中,研究团队需克服理论推导与数据实例化的双重困难:一方面需严格数学证明维度约束下的模型缺陷,另一方面需将抽象理论转化为具象的查询-文档对,并确保数据集的规模与复杂性能够有效验证理论假设。此外,数据生成需兼顾文档多样性、查询相关性及标注一致性,以保障评估结果的科学性与可复现性。
常用场景
经典使用场景
在信息检索领域,LIMIT数据集被设计为嵌入模型的压力测试基准,通过理论构建的文档组合挑战现有模型的检索边界。研究者利用其包含的5万篇文档和1000条查询,系统评估嵌入维度约束下的模型表现,揭示高维空间中的表示局限性。该数据集成为检验嵌入模型理论极限的重要实验平台,推动了对单向量表示范式的深入反思。
实际应用
在实际应用中,LIMIT数据集为搜索引擎和推荐系统的开发者提供了关键的基准测试工具,帮助识别现有嵌入模型在复杂文档集合中的失效场景。通过模拟极端检索条件,该系统能够指导工业界优化检索算法,避免在实际部署中出现系统性遗漏,提升大规模信息检索系统的可靠性和覆盖完整性。
衍生相关工作
该数据集的发布催生了对嵌入检索理论局限性的系列研究,包括多向量检索、动态嵌入调整等新范式的探索。基于LIMIT的理论框架,后续工作发展了混合检索模型和维度自适应算法,这些衍生研究显著拓展了嵌入检索的理论边界,为下一代检索系统的设计提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作