NQ320K 和 MSMARCO

github2024-11-08 更新2024-11-28 收录

下载链接：

https://github.com/augustinLib/HyPE-Why-These-Documents

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集目录包含两个主要数据集：NQ320K和MSMARCO，以及一个骨干类别层次结构。每个数据集目录包括与从骨干类别层次结构派生的线性化层次类别路径链接的路径增强数据集。在每个数据集的目录中，backbone_file目录包含路径增强数据集，用于原始训练集、查询生成集和索引训练集（文档）。最终的路径增强数据集可以在此目录中生成，适用于各种docid类型，如atomic_docid和keyword_docid。

This dataset directory contains two primary datasets: NQ320K and MSMARCO, as well as a backbone category hierarchy. Each dataset directory includes path-augmented datasets linked to linearized hierarchical category paths derived from the backbone category hierarchy. Within each dataset directory, the backbone_file folder contains path-augmented datasets for the original training set, query generation set, and index training set (documents). The final path-augmented datasets can be generated in this directory, and are applicable to various docid types such as atomic_docid and keyword_docid.

创建时间：

2024-11-08

原始信息汇总

HyPE 数据集概述

数据集

包含数据集: NQ320K 和 MSMARCO
数据集结构:
- 每个数据集目录包含与线性化层次类别路径关联的路径增强数据集。
- backbone_file 目录包含以下路径增强数据集：
  1. 原始训练集
  2. 查询生成 (QG) 集
  3. 索引训练集 (文档)
数据集生成:
- 最终的路径增强数据集可根据不同的 docid 类型（如 atomic_docid 和 keyword_docid）生成。
- 数据集结构支持基于不同 docid 类型和层次路径的灵活创建和操作。

训练

训练脚本: HyPE/src/ours/execute_shell/baseline_shell.sh
训练命令: bash cd HyPE/src/ours/execute_shell bash baseline_shell.sh
脚本修改: 可通过修改 baseline_shell.sh 文件来更改数据集、模型和其他超参数。

依赖项

transformers == 4.35.2
sentence-transformers==2.5.1
marisa-trie==1.2.0
torch==2.0.1
pytorch_lightning==2.1.0

搜集汇总

数据集介绍

构建方式

在构建NQ320K和MSMARCO数据集时，采用了层次类别路径增强的方法。首先，通过骨干类别层次结构生成线性化的层次类别路径，然后将这些路径与原始数据集进行关联，形成路径增强的数据集。具体而言，每个数据集目录中包含了原始训练集、查询生成集和索引训练集的路径增强版本。此外，数据集的构建还支持根据不同的docid类型（如`atomic_docid`和`keyword_docid`）生成最终的路径增强数据集，从而实现灵活的数据集创建和操作。

特点

NQ320K和MSMARCO数据集的主要特点在于其层次类别路径的增强机制。这种机制不仅提升了数据集的可解释性，还通过从广义到具体的语义类别逐步生成路径，增强了模型的语义理解能力。此外，数据集的结构设计允许根据不同的docid类型进行灵活的数据集生成和操作，使得数据集的应用场景更加广泛和多样化。

使用方法

使用NQ320K和MSMARCO数据集时，首先需要通过`HyPE/src/ours/execute_shell/baseline_shell.sh`脚本进行模型训练。用户可以通过修改该脚本中的参数来调整数据集、模型和其他超参数。此外，数据集的目录结构设计使得用户可以根据不同的docid类型生成和操作路径增强的数据集，从而满足不同的应用需求。所需的依赖包包括`transformers`、`sentence-transformers`、`marisa-trie`、`torch`和`pytorch_lightning`，确保这些包的版本符合要求以保证数据集的正常使用。

背景与挑战

背景概述

NQ320K和MSMARCO数据集是信息检索领域的重要资源，由知名研究机构开发，旨在提升生成式检索模型的解释性。这些数据集通过引入层次类别路径，从广义到具体的语义类别逐步生成，增强了模型的可解释性。NQ320K和MSMARCO数据集的构建，不仅丰富了信息检索领域的数据资源，还为研究者提供了新的视角和工具，以探索和优化检索模型的性能。

当前挑战

尽管NQ320K和MSMARCO数据集在信息检索领域展现了显著的潜力，但其构建和应用过程中仍面临若干挑战。首先，层次类别路径的生成和链接过程复杂，需要精确的算法支持，以确保路径的有效性和一致性。其次，数据集的多样性和规模要求高效的存储和处理技术，以应对大规模数据的训练和检索需求。此外，模型的训练和优化依赖于高质量的标注数据和先进的计算资源，这对研究者和开发者提出了较高的技术要求。

常用场景

经典使用场景

NQ320K 和 MSMARCO 数据集在信息检索领域中被广泛应用于生成式检索模型的训练与评估。通过结合层次类别路径，这些数据集能够增强模型的解释性，从广义到具体的语义类别逐步生成文档标识符。这种逐步生成的过程不仅提升了检索的准确性，还为模型的决策过程提供了清晰的解释路径。

实际应用

在实际应用中，NQ320K 和 MSMARCO 数据集被广泛用于搜索引擎、问答系统和推荐系统等场景。通过利用这些数据集训练的模型，系统能够更准确地理解用户查询意图，并提供更具解释性的检索结果。例如，在搜索引擎中，用户不仅能够获得相关文档，还能了解文档与查询之间的语义关系，从而提升用户体验和满意度。

衍生相关工作

基于 NQ320K 和 MSMARCO 数据集，研究者们开发了多种生成式检索模型，如 HyPE 模型，该模型通过层次类别路径增强了检索的解释性。此外，这些数据集还促进了其他相关研究，如语义匹配、文档排序和查询扩展等。这些研究不仅提升了信息检索的性能，还为相关领域的技术发展提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集