OBLIQ-Bench

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/dianetc/OBLIQ-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

OBLIQ-Bench 是一个包含五个检索基准测试的数据集套件，旨在揭示现代搜索系统在处理“斜向查询”时的盲点。斜向查询指的是那些决定相关性的属性在文档中潜在或几乎没有表面表达的情况。该数据集通过三种斜向机制组织五个任务：描述性查询（如推文冲突和WildChat对话错误）、类比查询（如数学元程序和写作风格）以及舌尖查询（如国会听证会）。数据集总规模在10万到100万之间，包含多种文件格式（如corpus.jsonl、queries.jsonl和qrels.tsv），适用于文本检索和推理任务。数据集采用CC-BY-4.0许可发布。

OBLIQ-Bench is a suite of five retrieval benchmarks designed to expose blind spots in modern search systems when handling oblique queries. Oblique queries refer to cases where the attributes determining relevance are latent or have little surface manifestation in the documents. The dataset organizes five tasks through three oblique mechanisms: descriptive queries (e.g., tweet conflicts and WildChat dialogue errors), analogical queries (e.g., math metacognition and writing style), and tip-of-the-tongue queries (e.g., congressional hearings). The total dataset size ranges between 100,000 and 1,000,000, containing various file formats (e.g., corpus.jsonl, queries.jsonl, and qrels.tsv), suitable for text retrieval and reasoning tasks. The dataset is released under the CC-BY-4.0 license.

创建时间：

2026-05-06

原始信息汇总

数据集概述：OBLIQ-Bench

OBLIQ-Bench 是一个用于评估检索系统在“间接查询”场景下表现的基准数据集。其核心在于测试现代检索器能否处理那些相关性由潜在属性决定、且与文档表面内容关联甚微的查询。

数据集名称：OBLIQ-Bench
许可证：CC-BY-4.0
语言：英语
数据规模：10万至100万条数据
任务类型：文本检索
标签：检索、推理、基准测试、间接查询

任务构成

该数据集包含五个子任务，按间接查询的产生机制分为三类：

描述性查询
- Twitter-Conflict
  - 语料库：72,122 条推文
  - 查询数：281
  - 平均正例/查询：9.8
  - 描述：检索对地缘政治冲突表达隐含立场的推文，这些立场通过讽刺、回避或选择性框架体现，但不包含显式关键词。
- WildChat Conversation Errors
  - 语料库：507,729 次对话
  - 查询数：40
  - 平均正例/查询：18.9
  - 描述：检索表现出特定行为失败模式的人机对话，例如AI从未自行修正的格式错误，该失败在对话中有迹可循但从未被作为话题提及。
类比查询
- Math Meta-Program
  - 语料库：3,508 道数学题
  - 查询数：151
  - 平均正例/查询：13.5
  - 描述：给定一道数学题，检索其他需要相同抽象证明策略但属于不同数学领域和符号体系的题目。
- Writing-Style
  - 语料库：10,389 段文本片段
  - 查询数：512
  - 平均正例/查询：9.0
  - 描述：给定一段文本，检索由同一作者撰写的其他片段，这些片段涉及不相关话题，依赖写作风格特征而非主题重合度。
“话在嘴边”查询
- Congress Hearings
  - 语料库：213,650 段听证会段落
  - 查询数：254
  - 平均正例/查询：1.0
  - 描述：将一段模糊的、Reddit风格的听证会记忆还原到精确的会议记录段落，过程中没有提供姓名、日期或逐字引述。

数据集文件结构与格式

数据集的文件结构按任务组织，每个任务包含语料库与查询/相关性判断文件。

目录结构：
- descriptive/
  - twitter/ (及 wildchat/)
    - corpus/corpus.jsonl
    - queries+qrels/
      - queries.jsonl
      - qrels.tsv
      - qrels_pool.tsv (扩展池化判断)
- analogues/
  - math/ (及 writing/)
    - 与上述结构类似，另含 per_query_excluded_ids.json 文件
- tip-of-tongue/congress/
  - 与上述结构类似
文件格式：
- corpus.jsonl：每行一个JSON对象，至少包含 _id 和 text 字段。
- queries.jsonl：每行一个JSON对象，包含查询 _id、text 以及特定任务的元数据。
- qrels.tsv：标准TREC格式的制表符分隔相关性判断文件：query_id、corpus_id、score。
- qrels_pool.tsv：扩展的池化相关性判断，由推理模型评估各检索系统top-k结果后获得。
- per_query_excluded_ids.json：列出每个查询在检索时必须排除的文档ID（如写作/数学任务中的同源片段）。

评估方式

标准评估指标：使用 qrels.tsv 计算NDCG@10、NDCG@50、Recall@10/50/100等标准信息检索指标。
池化评估：可利用 qrels_pool.tsv 进行池化评估，以统计检索过程中发现的未标注相关文档。
排除规则：对于Writing-Style和Math任务，需根据 per_query_excluded_ids.json 排除特定文档，避免检索到与查询同源的文本。

搜集汇总

数据集介绍

构建方式

OBLIQ-Bench是一个专为揭示现代检索系统盲点而设计的基准测试套件，聚焦于“斜向查询”（oblique queries）这一特殊场景。数据集涵盖五种任务，依据斜向性机制划分为描述性查询、类比查询和舌尖查询三大类别。描述性查询包括Twitter-Conflict和WildChat Conversation Errors两个任务，分别从72,122条推文和507,729段对话中构建，要求检索系统捕捉文本中隐含但未被明确表述的态度或行为模式。类比查询涵盖Math Meta-Program和Writing-Style任务，前者从3,508道数学问题中寻找共享抽象证明策略的题目，后者从10,389个文本片段中识别相同作者的写作风格。舌尖查询通过Congress Hearings任务，从213,650个听证会段落中匹配模糊记忆中的确切片段。每个任务均包含corpus.jsonl和queries.jsonl文件，并配有qrels.tsv标准相关性判断及可选qrels_pool.tsv扩展判断集。

特点

该数据集的核心特点在于其精心设计的斜向查询机制，使得相关文档在内容上虽与查询隐含关联，却缺乏显式词汇匹配。描述性查询要求模型从推文或对话中推断出情绪、立场或错误模式，这些属性仅通过深层语义理解才能捕获。类比查询则跨越不同学科或主题领域，要求识别抽象结构而非表层相似性，例如数学问题中跨领域的同一证明策略，或写作中跨主题的作者风格一致性。舌尖查询更进一步，需基于模糊、印象化的回忆在庞大规模语料中精确定位唯一相关文档，极具挑战性。此外，每个任务均提供标准TREC格式的qrels.tsv和扩展的qrels_pool.tsv，后者通过推理模型评估各检索系统的top-k结果，扩大了已知相关文档的覆盖范围，为更全面的性能评估提供了保障。

使用方法

使用OBLIQ-Bench进行检索系统评估时，用户需从各任务目录中加载corpus.jsonl和queries.jsonl文件，通过检索模型对每个查询在对应语料库中执行检索，生成排序后的文档列表。随后，利用标准IR指标（如NDCG@10、NDCG@50、Recall@10/50/100）结合qrels.tsv进行黄金标准评估。对于提供了qrels_pool.tsv的任务，还可进行池化评估，以纳入由推理模型发现的额外相关文档。在Writing-Style和Math任务中，需特别注意使用per_query_excluded_ids.json屏蔽查询来源文档，确保检索结果不包含与查询同源的片段。数据集采用HuggingFace的configs结构组织，用户可通过指定config_name（如math、writing）直接加载对应子集。

背景与挑战

背景概述

信息检索领域长期致力于构建能够精准匹配用户显式查询与相关文档的系统，传统方法多依赖关键词重叠或浅层语义相似度，诸如BM25和早期稠密检索模型均受限于此。然而，当相关性依赖于文档中隐含、未明言甚至仅可感知的特征时，现有检索器面临严峻瓶颈。OBLIQ-Bench数据集于2024年由研究团队创建，系统性地聚焦于“间接查询”（oblique queries）这一被长期忽视的挑战。该基准涵盖五个子任务，分别对应描述性、类比性和“舌尖”三种隐式机制，旨在评估检索器在文本中推理潜在属性、识别结构相似性或匹配模糊记忆的能力。OBLIQ-Bench的提出填补了检索基准在隐式语义理解上的空白，为现代检索系统通往更深层语言理解设立了关键试金石，其影响力辐射信息检索、自然语言推理及可解释人工智能等领域。

当前挑战

OBLIQ-Bench所解决的领域核心挑战源于传统检索范式对隐式相关性的无能为力。在现实搜索中，用户查询与相关文档之间的语义鸿沟常由概念抽象、跨域类比或碎片化记忆引入，然而当前检索模型难以表征这类缺乏表面共指的关系。具体而言，描述性查询要求根据微妙的修辞立场或行为模式（如推文中的讽刺性表达）来检索文档，这对现有时序或情感建模构成严峻考验。此外，数据集构建过程中遭遇双重困难：为确保查询与文档间具有可识别但非显式的联系，人工标注者需精心设计案例，并依赖大语言模型进行大规模池化判断以扩充标注，过程费时且需精心控制偏差；同时，类比查询需手工筛选跨领域的数学问题与多主题文本，保证结构相似性不受内容干扰。这些挑战共同使得OBLIQ-Bench成为评估检索器隐式推理能力的严苛标杆。

常用场景

经典使用场景

OBLIQ-Bench是一套专为评估现代检索系统在应对隐性查询（oblique queries）时所表现出的脆弱性而设计的基准测试集。其经典使用场景聚焦于三大类检索困境：描述性查询任务要求模型从海量文本中捕捉那些虽可推断但极其微妙的潜在属性，例如从推文中识别对地缘冲突隐含的讽刺或选择性立场；类比查询任务则挑战模型跨越不同学科领域与表面主题，挖掘出共享相同抽象结构或风格指纹的文档，如数学中本质相同的证明策略或写作中一致的作者风格；而话到嘴边查询任务则模拟用户基于模糊印象检索精确信息的过程，如在大量国会听证记录中匹配一段只有朦胧回忆却无任何具体姓名的对话。这些场景共同揭示了当前密集与稀疏检索范式在处理语义表达与文档内容之间深层逻辑关联时存在的系统性盲区。

解决学术问题

该数据集精准地指向了信息检索领域一个长期被忽视但至关重要的学术问题：即当相关性判定并非依赖于查询与文档间显性的词汇重叠或浅层语义相似度，而是建立在必须由高级推理才能揭示的隐含属性之上时，现有的检索模型普遍失效。OBLIQ-Bench通过其精心设计的五个子任务，系统性地量化了这种失效程度，证明即便如LLM这样的强推理模型可以轻易验证相关性，但用于初始筛选的检索器却无法将候选范围缩减至包含相关文档的合理集合。这一发现颠覆了学术界对检索系统性能评估的常规认知，促使研究者从关注简单的语义匹配转向探索更深层的推理式召回机制，其意义在于为构建更具智能的下一代入口系统奠定了评估基础与问题定义。

衍生相关工作

OBLIQ-Bench的发布催生了一系列旨在突破检索系统推理瓶颈的后续研究。受其指出的隐性查询挑战启发，研究者开始探索将大型语言模型作为检索增强模块，通过在查询时引入中间推理步骤来生成更具表征力的隐式表示，从而弥合查询意图与文档内容之间的鸿沟。另一些工作则聚焦于改进对比学习框架中的负样本构建策略，引入基于推理难度的对抗性样本，使模型学会在表征空间中捕捉到那些难以通过表面特征区分的细微模式。此外，针对该基准测试中展现出的领域迁移困难，出现了针对数学和写作等特定领域的微调范式，通过构造结构对齐的预训练任务来增强模型对抽象逻辑与风格指纹的敏感性。这些衍生工作共同推动信息检索从浅层语义匹配向深度推理融合的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集