LIMIT
收藏LIMIT 数据集概述
数据集简介
LIMIT 数据集由 Google DeepMind 团队开发,旨在基于理论原理对嵌入模型进行压力测试。该数据集证明对于任何给定的嵌入维度 d,都存在无法通过任何查询返回的文档组合。实验表明即使最先进的模型在该数据集上也表现不佳,这凸显了当前单向量嵌入范式的基本局限性。
数据内容
数据集结构
数据集采用 MTEB 风格格式(json lines),包含三个核心文件:
queries.json:包含 1000 个查询,每个查询具有_id和text字段corpus.json:包含文档集合,每个文档具有_id、text和空title字段qrels.json:包含 2000 个相关查询-文档映射,通过query-id和corpus-id关联,score表示相关性
数据集版本
- 完整数据集(limit):包含 50,000 个文档
- 小型样本(limit-small):仅包含与查询相关的 46 个文档
代码资源
数据集生成
提供 Jupyter notebook(code/generate_limit_dataset.ipynb)用于从头生成 LIMIT 风格数据集,包含所有必要步骤和依赖项。
自由嵌入实验
提供 Python 脚本(code/free_embedding_experiment.py)用于运行自由嵌入实验。
安装要求
使用 uv 包管理器安装依赖:
bash
uv venv
source .venv/bin/activate
uv pip install -r https://raw.githubusercontent.com/google-deepmind/limit/refs/heads/main/code/requirements.txt
评估方法
使用 MTEB 框架进行评估,具体细节参考 MTEB GitHub 仓库。
引用信息
如需使用本工作,请引用以下论文:
@misc{weller2025theoretical, title={On the Theoretical Limitations of Embedding-based Retrieval}, author={Orion Weller and Michael Boratko and Iftekhar Naim and Jinhyuk Lee}, year={2025}, archivePrefix={arXiv}, primaryClass={cs.IR} }
许可信息
- 软件部分使用 Apache License 2.0 许可
- 其他材料使用 Creative Commons Attribution 4.0 International License (CC-BY) 许可
- 非官方 Google 产品




