LIMIT-small

Hugging Face2025-09-05 更新2025-09-06 收录

下载链接：

https://huggingface.co/datasets/orionweller/LIMIT-small

下载链接

链接失效反馈

官方服务：

资源简介：

LIMIT-small是一个小型检索数据集，用于展示基于嵌入的检索模型在理论上的局限性。该数据集包含1000个简单的“谁喜欢[属性]？”形式的查询，46个描述人物及其偏好的简短传记文本，以及2000个查询-文档相关性判断。该数据集的目的是测试嵌入模型是否能够表示所有可能的top-k相关文档组合，即便是在极其简单的查询情况下，最先进的模型也难以达到这一要求，揭示了嵌入模型在现有单一向量范式下的局限性。

LIMIT-small is a small-scale retrieval dataset developed to illustrate the theoretical limitations of embedding-based retrieval models. It contains 1000 simple queries in the format of "Who likes [attribute]?", 46 short biographical texts describing individuals and their preferences, as well as 2000 query-document relevance judgments. The purpose of this dataset is to test whether embedding models can represent all possible top-k relevant document combinations. Even for extremely simple queries, state-of-the-art models struggle to meet this requirement, thus revealing the limitations of embedding models under the current single-vector paradigm.

创建时间：

2025-08-29

原始信息汇总

LIMIT-small 数据集概述

基本信息

语言：英语
许可证：CC-BY-4.0
规模：小于1K样本
任务类别：文本排序
标签：检索、嵌入、理论限制

数据集配置

默认配置

文件：qrels.jsonl
特征：
- query-id：字符串
- corpus-id：字符串
- score：int64
分割：测试集（2000个样本）

语料库配置

文件：corpus.jsonl
特征：
- _id：字符串
- title：字符串
- text：字符串
分割：语料库（46个样本）

查询配置

文件：queries.jsonl
特征：
- _id：字符串
- text：字符串
分割：查询（1000个样本）

数据集内容

查询

数量：1000个
类型：简单问题，格式为"Who likes [属性]?"
示例："Who likes Quokkas?", "Who likes Joshua Trees?", "Who likes Disco Music?"

语料库

数量：46个文档
格式：简短传记文本，描述人物及其偏好
示例："Geneva Durben likes Quokkas and Apples."

目的

测试嵌入模型是否能够表示所有top-k相关文档组合，基于连接嵌入维度与表示能力的理论结果。尽管查询简单，但最先进的模型由于基本维度限制而难以应对。

评估框架

使用MTEB框架进行评估（https://github.com/embeddings-benchmark/mteb）

搜集汇总

数据集介绍

构建方式

在信息检索领域，LIMIT-small数据集通过精心设计的组合结构揭示嵌入模型的固有局限性。该数据集包含46篇人物偏好描述的短文本文档，每篇采用“姓名喜欢属性1和属性2”的统一格式。基于组合数学原理，从46个文档中生成近全部可能的二元组合（C(46,2)=1035种），构建了1000个“谁喜欢[属性]”模式的简单查询，并为每个查询精确匹配两个相关文档，形成2000条带标注的查询-文档相关性判断数据。

特点

该数据集的核心特征在于其理论驱动的问题构造：虽然查询语句仅涉及简单的属性偏好询问，但文档关联模式覆盖了近乎全部的二元组合空间。这种设计直接对应嵌入维度表示能力的理论边界——即使是最先进的嵌入模型也难以捕捉所有可能的文档组合关系。数据集规模虽小（n<1K），但通过高密度组合排列形成了对模型表示能力的严格压力测试，其检索任务难度与文档数量呈指数级关系，而非线性增长。

使用方法

研究人员可通过Hugging Face Datasets库加载该数据集的不同配置：'corpus'获取文档文本，'queries'加载查询语句，'default'则包含预定义的相关性判断。评估需集成MTEB基准框架，使用sentence-transformers等嵌入模型计算查询与文档的相似度。通过Recall@100等指标衡量模型在组合检索任务上的表现，特别关注模型是否能同时召回两个相关文档。该数据集主要用于验证嵌入模型在表示复杂文档关系时的理论局限性，为改进检索范式提供实证依据。

背景与挑战

背景概述

LIMIT-small数据集由Google DeepMind研究团队于2025年创建，旨在揭示基于嵌入的检索模型存在的理论局限性。该数据集聚焦于信息检索领域的核心问题，即嵌入模型在表示文档间复杂关联时的维度约束。通过构建包含46篇人物偏好描述的文档库和1000个简单查询，研究者实证验证了即使是最先进的嵌入模型也难以覆盖所有可能的文档组合，这一发现对当前嵌入检索范式的发展提出了重要质疑。

当前挑战

该数据集主要挑战在于突破嵌入模型在表示能力上的理论边界，其设计的检索任务要求模型能够识别任意两个文档之间的关联性，但受限于嵌入维度，模型无法覆盖所有C(46,2)种组合。构建过程中的核心挑战在于如何将理论上的维度限制转化为实际可评估的数据集，同时保持查询的简单性和文档的真实性，以确保实验结果既能反映理论缺陷又具备实际意义。

常用场景

经典使用场景

在信息检索研究领域，LIMIT-small数据集被设计用于检验嵌入模型的理论边界，其核心场景是通过简单查询语句（如“谁喜欢苹果？”）匹配包含人物偏好的短文本。该数据集要求模型从46篇文档中精确检索出两个相关文档，这种设置直接对应现实世界中需要同时满足多个条件的检索任务，例如根据用户的多重偏好推荐匹配内容。

衍生相关工作

该数据集催生了多项重要研究，包括基于混合检索架构的解决方案、针对维度扩展的理论探索，以及新型注意力机制的开发。相关经典工作如多向量嵌入模型和交互式检索框架都直接受其启发，这些研究共同推动了检索系统从传统嵌入范式向更灵活的多模态表示方向发展。

数据集最近研究