NQ dataset

Name: NQ dataset
Creator: 澳大利亚布里斯班CSIRO
Published: 2024-10-09 15:23:02
License: 暂无描述

arXiv2024-10-09 更新2024-10-11 收录

下载链接：

https://github.com/ielab/vec2text-corpus-poisoning

下载链接

链接失效反馈

官方服务：

资源简介：

NQ数据集是由澳大利亚布里斯班CSIRO创建的一个包含约268万条文本段落的数据集。该数据集主要用于评估密集检索系统在面对Vec2Text方法进行语料库污染攻击时的表现。数据集的创建过程涉及使用GTR-base嵌入模型对查询进行编码，并通过k-means聚类算法生成对抗性段落。NQ数据集的应用领域主要集中在信息检索系统的安全性和鲁棒性测试，旨在解决语料库污染攻击对密集检索系统的影响问题。

The NQ dataset is a corpus consisting of approximately 2.68 million text passages, developed by CSIRO in Brisbane, Australia. This dataset is primarily used to evaluate the performance of dense retrieval systems when subjected to corpus poisoning attacks via the Vec2Text method. The construction process of the dataset involves encoding queries using the GTR-base embedding model and generating adversarial passages through the k-means clustering algorithm. The application scope of the NQ dataset mainly focuses on security and robustness testing of information retrieval systems, aiming to address the impact of corpus poisoning attacks on dense retrieval systems.

提供机构：

澳大利亚布里斯班CSIRO

创建时间：

2024-10-09

原始信息汇总

vec2text-corpus-poisoning

数据集概述

该数据集用于研究向量到文本的语料库污染攻击。

相关脚本

Hopflip 攻击: scripts/attack_poison_hotflip.sh
Vec2Text 攻击: scripts/attack_poison_v2t.sh
评估: scripts/eval.sh

搜集汇总

数据集介绍

构建方式

NQ数据集的构建基于大规模的文本嵌入技术，旨在捕捉文本的语义信息。该数据集通过收集和处理约2.68百万个段落，形成了一个庞大的语料库。这些段落经过嵌入模型（如GTR-base）处理，生成相应的嵌入向量，从而为后续的密集检索系统提供了丰富的语义表示。数据集的构建过程中，特别关注了文本嵌入的准确性和多样性，以确保其在语义检索任务中的有效性。

使用方法

NQ数据集主要用于支持密集检索系统的研究和开发。研究者可以利用该数据集进行语义检索算法的训练和评估，特别是针对如Vec2Text这样的潜在威胁进行防御机制的研究。使用时，研究者可以通过访问数据集的公开API或下载完整数据集，进行模型训练和测试。此外，数据集还支持多种嵌入模型的应用，为不同研究需求提供了灵活性。

背景与挑战

背景概述

NQ数据集是由CSIRO和昆士兰大学的研究人员Shengyao Zhuang、Bevan Koopman和Guido Zuccon创建的，旨在解决文本嵌入反演方法Vec2Text带来的隐私和安全问题。Vec2Text方法能够从文本嵌入中重建原始文本，从而对使用文本嵌入的密集检索系统构成威胁。NQ数据集的创建是为了评估Vec2Text在语料库中毒攻击中的潜在威胁，这种攻击通过注入对抗性段落来误导密集检索器。该数据集的发布为研究者提供了一个平台，以测试和开发针对此类攻击的防御措施，从而增强密集检索系统的安全性和用户信任。

当前挑战

NQ数据集面临的挑战主要集中在两个方面：一是解决Vec2Text方法带来的隐私和安全威胁，这种威胁源于其能够从嵌入中重建原始文本；二是构建过程中遇到的挑战，包括如何高效生成大量对抗性段落，以及如何在不访问嵌入模型参数的情况下进行攻击。此外，数据集还需要应对生成对抗性段落的质量问题，确保这些段落能够有效误导检索系统，同时避免被用户轻易识别。这些挑战不仅影响数据集的构建和使用，也对相关领域的研究和应用提出了新的要求。

常用场景

经典使用场景

在信息检索领域，NQ数据集常用于评估和优化密集检索系统（DRs）的性能。该数据集包含大量文本段落，适用于训练和测试文本嵌入模型，以捕捉文本的语义信息。通过使用NQ数据集，研究者能够验证Vec2Text方法在生成对抗性段落方面的有效性，从而评估其对密集检索系统的潜在威胁。

解决学术问题

NQ数据集解决了在密集检索系统中存在的隐私和安全问题。通过模拟和测试Vec2Text方法，研究者能够深入探讨文本嵌入反转技术对系统完整性的影响。这一研究不仅揭示了现有系统的脆弱性，还为开发更安全的检索系统提供了理论基础和实验数据支持。

实际应用

NQ数据集在实际应用中主要用于检测和防御密集检索系统中的对抗性攻击。通过使用该数据集，安全专家和开发者可以模拟攻击场景，评估系统的鲁棒性，并开发相应的防御机制。此外，NQ数据集还可用于训练和验证新的文本嵌入模型，以提高系统的安全性和检索效率。

数据集最近研究