LIMIT

Hugging Face2025-09-04 更新2025-09-05 收录

下载链接：

https://huggingface.co/datasets/orionweller/LIMIT

下载链接

链接失效反馈

官方服务：

资源简介：

LIMIT是一个检索数据集，旨在测试基于嵌入的检索模型的理论局限性。该数据集包括三种配置：默认配置包含查询-文档相关性判断，查询配置包含查询文本，文档配置包含文档文本。数据集分为测试、文档和查询子集，每个子集有指定的示例数量。该数据集旨在通过嵌入模型的基本维度限制来挑战最先进的模型。LIMIT数据集及其小型版本可在Huggingface上获取，并提供了论文和代码的链接。

创建时间：

2025-08-29

原始信息汇总

LIMIT 数据集概述

基本信息

语言：英语
许可证：CC-BY-4.0
规模：10K<n<100K
任务类别：文本排序、文本检索
标签：检索、嵌入、基准测试

数据集结构

配置详情

default 配置
- 特征：query-id（字符串）、corpus-id（字符串）、score（int64）
- 数据文件：qrels.jsonl
- 测试集样本数：2000
corpus 配置
- 特征：_id（字符串）、title（字符串）、text（字符串）
- 数据文件：corpus.jsonl
- 语料库样本数：50000
queries 配置
- 特征：_id（字符串）、text（字符串）
- 数据文件：queries.jsonl
- 查询集样本数：1000

数据集内容

查询

数量：1000
类型：简单问题，格式为“Who likes [attribute]?”
示例：“Who likes Quokkas?”、“Who likes Joshua Trees?”、“Who likes Disco Music?”

语料库

数量：50000
类型：简短传记文本，描述人物及其偏好
格式：“[Name] likes [attribute1] and [attribute2].”
示例：“Geneva Durben likes Quokkas and Apples.”

数据格式

遵循标准MTEB格式，包含三个配置：

default：查询-文档相关性判断（qrels），键为corpus-id、query-id、score（1表示相关）
queries：查询文本及ID，键为_id、text
corpus：文档文本及ID，键为_id、title（空）和text

目的与特点

揭示基于嵌入的检索模型的理论局限性
测试嵌入模型是否能表示所有top-k相关文档组合
尽管查询简单，但最先进模型因维度限制而表现不佳（完整版召回率@100低于20%，小版本无法解决）

使用方式

可通过Huggingface的datasets库加载数据： python from datasets import load_dataset ds = load_dataset("orionweller/LIMIT-small", "corpus") # 也可选择queries、test（包含qrels）

引用信息

bibtex @misc{weller2025theoreticallimit, title={On the Theoretical Limitations of Embedding-Based Retrieval}, author={Orion Weller and Michael Boratko and Iftekhar Naim and Jinhyuk Lee}, year={2025}, eprint={2508.21038}, archivePrefix={arXiv}, primaryClass={cs.IR}, url={https://arxiv.org/abs/2508.21038}, }

搜集汇总

数据集介绍

构建方式

在信息检索领域，LIMIT数据集的构建基于严谨的理论框架，通过生成50,000份简短人物传记文档构成语料库，每份文档采用统一模板描述人物及其偏好属性。精心设计1,000个结构化查询，每个查询对应两个相关文档，形成2,000个精确标注的查询-文档相关性对。这种构建方式旨在系统化覆盖所有可能的文档组合，为检验嵌入模型的表示能力奠定基础。

使用方法

研究人员可通过HuggingFace数据集库直接加载LIMIT的三个标准配置：corpus获取文档集合，queries读取查询文本，default载入相关性标注。评估时需将嵌入模型生成的表示与标准相关性判断进行对比，重点关注模型在有限维度下捕捉组合模式的能力。该数据集支持检索性能的标准指标计算，为理论验证提供实证基础。

背景与挑战

背景概述

信息检索领域长期依赖嵌入模型提升语义匹配性能，然而这些模型的理论局限性尚未得到系统验证。2025年，Google DeepMind研究团队发布了LIMIT数据集，通过构建包含5万篇人物偏好传记文本的语料库及1000个简单查询，首次从计算几何角度揭示了嵌入维度对检索组合表征能力的根本约束。该数据集通过严格的数学证明与实验设计，为嵌入模型的性能上限提供了理论支撑，对信息检索与表示学习领域产生了深远影响。

当前挑战

LIMIT数据集核心挑战在于突破嵌入模型对组合查询的表征瓶颈：其设计的简单二元偏好查询需同时匹配两个相关文档，但现有模型因嵌入空间维度不足无法覆盖所有组合可能性，导致召回率低于20%。构建过程中需精确控制文档属性组合的数学完备性，确保每个查询对应唯一的文档对组合，同时保持语言表面的自然性与一致性，这对语料生成算法与理论验证框架提出了双重挑战。

常用场景

经典使用场景

在信息检索领域，LIMIT数据集被设计为评估嵌入模型组合表示能力的基准工具。其经典应用场景集中于测试模型对简单查询语句下多文档组合的检索效果，例如通过“谁喜欢苹果？”这类查询验证模型是否能同时召回所有相关文档组合。该场景深刻揭示了现有模型在有限维度下处理组合查询时的理论瓶颈。

解决学术问题

该数据集核心解决了嵌入模型表示能力与维度限制的理论关系问题，通过构建精确的双文档组合相关性标注，实证检验了高维嵌入空间对组合语义的覆盖极限。其意义在于首次系统化揭示了即使最先进的嵌入模型也难以完全捕获简单组合查询的全部相关文档，为改进模型架构和训练策略提供了理论依据。

实际应用

在实际应用中，LIMIT数据集为搜索引擎和推荐系统的开发提供了关键验证基准。企业可借助该数据集测试其检索系统对用户组合查询的响应能力，例如在电商平台中同时满足“喜欢篮球且爱好音乐”的用户画像检索，或是在学术数据库中处理多条件文献查询，从而提升复杂信息需求的满足度。

数据集最近研究