NegConstraint
收藏arXiv2025-05-28 更新2025-05-30 收录
下载链接:
https://github.com/xgl-git/NS-IR-main
下载链接
链接失效反馈官方服务:
资源简介:
NegConstraint数据集是为了评估NS-IR在负约束查询场景下的性能而构建的,数据集来源于Wikipedia数据。该数据集包含三种类型的负约束查询,每种类型都对应一定数量的正例文档和无关文档。数据集的构建旨在帮助研究者在负约束查询的场景下评估信息检索模型的效果,并推动复杂查询在信息检索领域的研究。
The NegConstraint dataset is constructed to evaluate the performance of NS-IR under negative constraint query scenarios, and it is sourced from Wikipedia data. This dataset includes three types of negative constraint queries, with each type corresponding to a certain number of relevant documents and irrelevant documents. The construction of this dataset aims to help researchers evaluate the effectiveness of information retrieval models in negative constraint query scenarios, and advance the research on complex queries in the field of information retrieval.
提供机构:
复旦大学数据科学学院, 上海, 中国
创建时间:
2025-05-28
原始信息汇总
数据集概述
依赖环境
- Python环境:使用anaconda创建,版本为Python 3.9
- 依赖库:通过
pip install -r requirements.txt安装所有必需的库
模型准备
- 使用模型:
bge-large,下载地址为https://huggingface.co/BAAI/bge-large-en-v1.5
数据准备
- NegConstraint数据集:
NegConstraint.zip - BEIR基准数据集:来源为https://github.com/beir-cellar/beir/tree/main
- TREC基准数据集:
- DL19:来源为https://microsoft.github.io/msmarco/TREC-Deep-Learning-2019
- DL20:来源为https://microsoft.github.io/msmarco/TREC-Deep-Learning-2020
运行程序
- 执行命令:
bash run.sh
搜集汇总
数据集介绍

构建方式
NegConstraint数据集的构建基于Wikipedia语料库,通过精心设计的负约束查询形式化方法,结合人工标注与GPT-4o的智能生成技术完成。研究团队首先从Wikipedia转储中筛选高质量导语段落作为基础语料,由专业标注人员根据三种负约束查询范式(A-a、(A-a)∪B、(A-a)∪(B-b))构建正负文档对。针对每种查询类型,通过大语言模型生成风格多样的查询语句,并确保正文档满足约束条件而负文档违反约束条件,最终形成包含3,000篇无关文档的基准数据集。
特点
该数据集创新性地定义了三种负约束查询范式,系统覆盖了信息检索中复杂的逻辑排除场景。其核心特征体现在:1) 查询构造采用集合运算语法精确表达排除逻辑,如'介绍金斯堡作品(排除《嚎叫》)';2) 文档标注严格遵循一阶逻辑的否定语义,正文档必须满足¬a条件;3) 引入多层级负样本,特别是(A-a)∪(B-b)类型包含三重负文档验证点。每个查询配备1-3个针对性负样本及大量无关文档,有效模拟真实检索场景中的干扰项分布。
使用方法
使用NegConstraint时需重点关注其逻辑验证功能:1) 作为评估基准时,应通过MAP和nDCG@10指标衡量模型处理¬a等约束条件的能力;2) 训练检索系统时,可利用正负文档对构建对比学习任务,强化模型对逻辑排除的敏感性;3) 研究复杂查询时,三种查询范式可分别验证模型处理单元素排除、联合检索及多重排除的性能差异。数据集的FOL标注版本特别适合神经符号方法的训练与验证,可通过逻辑对齐等技术提升检索相关性。
背景与挑战
背景概述
NegConstraint数据集由复旦大学数据科学学院的研究团队于2025年创建,旨在解决信息检索领域中对负约束查询(negative-constraint queries)的处理难题。该数据集聚焦于复杂逻辑查询场景,特别是包含否定语义的检索需求,例如“查找不涉及提示工程的RAG方法”。研究团队通过结合一阶逻辑(FOL)与神经符号方法,提出了NS-IR模型,显著提升了语义相似性与逻辑一致性的协同能力。NegConstraint的发布填补了负约束查询评估基准的空白,对推动复杂逻辑检索、跨模态推理等研究方向具有重要价值。
当前挑战
NegConstraint数据集面临的核心挑战体现在两方面:其一,领域问题层面,传统密集检索模型依赖词共现相似度,难以捕捉否定约束等复杂逻辑意图,导致检索结果与查询语义脱节;其二,构建过程中需解决逻辑标注一致性难题,包括自然语言到FOL的精准转换、负约束条件的边界界定,以及多类型负样本(如同时违反单一/多重约束的文档)的平衡采集。此外,数据集的查询模式多样性要求对生成模型的提示工程提出极高要求,需确保语义复杂度与真实检索场景的匹配度。
常用场景
经典使用场景
NegConstraint数据集在信息检索领域中被广泛用于评估模型处理负约束查询的能力。负约束查询是一种复杂的查询类型,要求检索结果中不包含特定关键词或实体。例如,查询“介绍Allen Ginsberg的作品,但不提及‘Howl’”需要模型能够理解并排除包含‘Howl’的文档。该数据集通过提供正例文档(不包含排除项)和负例文档(包含排除项),为研究者提供了一个标准化的测试平台。
解决学术问题
NegConstraint数据集解决了信息检索中一个关键问题:如何有效处理负约束查询。传统密集检索模型依赖词共现和语义相似性,往往无法准确理解查询中的逻辑否定,导致检索结果中包含不相关文档。该数据集通过引入负约束查询,推动了模型在逻辑一致性和语义理解方面的研究。其意义在于为复杂查询场景下的模型评估提供了基准,促进了神经符号检索方法的发展。
衍生相关工作
NegConstraint数据集衍生了一系列相关研究,特别是在神经符号信息检索领域。例如,基于该数据集提出的NS-IR方法结合了一阶逻辑(FOL)和自然语言处理,通过逻辑对齐和连接词约束优化检索结果。此外,该数据集还激发了关于逻辑一致性、零样本检索和复杂查询处理的研究,如HyDE和InteR等模型在负约束查询上的改进。这些工作进一步推动了信息检索技术在复杂逻辑场景中的应用。
以上内容由遇见数据集搜集并总结生成



