synthetic-passages-msmarco-queries

Hugging Face2024-08-25 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/fletcher3/synthetic-passages-msmarco-queries

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为一篇硕士论文生成的，目的是研究大型语言模型如何用于生成MS MARCO查询的合成数据，并比较其与原始MS MARCO数据集的差异。数据集包含从MS Marco训练集中采样的查询，并使用大型语言模型生成四个不同难度的段落。这些段落的难度级别定义为：简单正面（高度相关且直接回答查询）、困难正面（包含更多噪音或无关信息）、困难负面（与查询有主题或语义相似性但非直接匹配）和非常困难负面（与简单正面相似但包含细微差异或细微差别，使其与回答查询无关）。生成模型为`upstage/SOLAR-10.7B-Instruct-v1.0`。数据集包含两种文件格式：查询文件和段落文件。

创建时间：

2024-08-25

原始信息汇总

Synthetic Passages for MS MARCO Queries

概述

该数据集是为研究大型语言模型如何生成MS MARCO查询的合成数据以及与原始MS MARCO数据集的比较而生成的。数据集的生成代码和实验可在此仓库中找到。

数据生成方法

数据生成方法是从MS Marco训练集中采样查询，然后使用大型语言模型生成段落。每个生成的数据集包含4个不同难度的段落：

Easy positive: 高度相关且直接回答给定查询的文本段落。
Hard positive: 与easy positive段落具有相同必要信息，但包含更多噪声或无关信息的文本段落。
Hard negative: 与给定查询具有一些主题或语义相似性，但不是直接匹配的文本段落。
Very hard negative: 与easy positive段落相似，但包含细微差异或细微差别，使其与回答查询无关的文本段落。

生成模型使用的是upstage/SOLAR-10.7B-Instruct-v1.0模型。

提示方法

研究了四种不同的提示方法：

individual: 每个段落单独生成。
one-step: 一步生成所有段落并以JSON格式输出。
chain-of-thought: 首先生成一些段落的理由，然后根据理由生成段落。
text-then-json: 首先生成所有段落的文本，然后在第二步中将其转换为JSON格式。

数据格式

数据集包含两个文件：一个包含所有段落，另一个包含查询和段落的引用。格式如下：

Queries File

json { "query_id": "108689", "query": "cost subdividing", "msmarco_positive": {"doc_id": "0"}, "positives": {"doc_id": ["1", "2"]}, "negatives": {"doc_id": ["3", "4"]} }

Passages File

json { "0": { "text": "..." }, "1": { "text": "..." }, "2": { "text": "..." }, ... }

搜集汇总

数据集介绍

构建方式

该数据集的构建源于一项硕士论文研究，旨在探索大型语言模型如何生成用于MS MARCO查询的合成数据，并与原始MS MARCO数据集进行对比。数据生成过程从MS MARCO训练集中采样查询，并利用大型语言模型生成相关段落。每个查询生成四个段落，分别代表不同的难度级别：简单正例、困难正例、困难负例和极难负例。生成模型采用了`upstage/SOLAR-10.7B-Instruct-v1.0`，并通过四种不同的提示方法进行段落生成。

使用方法

该数据集的使用方法较为直观，数据以两个文件形式存储：一个文件包含所有段落，另一个文件包含查询及其对应的段落引用。用户可以通过查询文件中的`query_id`和`doc_id`字段，快速定位相关段落。数据集适用于信息检索、自然语言处理等领域的研究，特别是用于评估模型在不同难度级别下的检索性能。通过分析模型在简单正例、困难正例、困难负例和极难负例上的表现，研究者可以深入理解模型在处理复杂文本相关性时的能力。

背景与挑战

背景概述

synthetic-passages-msmarco-queries数据集诞生于一项硕士论文研究，旨在探索大型语言模型在生成MS MARCO查询的合成数据方面的潜力，并与原始MS MARCO数据集进行对比。该数据集由研究人员Malte Osinga在其硕士论文中创建，采用了MS MARCO训练集中的查询样本，并利用大型语言模型生成相关段落。生成的数据集包含四种不同难度的段落，分别定义为：易正例、难正例、难负例和极难负例。这一研究不仅推动了信息检索领域的数据增强技术发展，还为大型语言模型在生成高质量合成数据方面的应用提供了新的视角。

当前挑战

该数据集面临的主要挑战包括两个方面。首先，在解决领域问题上，如何确保生成的合成段落能够准确反映不同难度级别的信息相关性，尤其是在极难负例的生成中，需要捕捉细微的语义差异以避免误导模型。其次，在构建过程中，如何设计有效的提示方法以生成多样化的段落，同时保持数据的一致性和质量，是一个技术难点。研究人员尝试了四种不同的提示方法，包括独立生成、一步生成、链式思维生成和文本转JSON生成，每种方法在生成效率和段落质量上均存在权衡。此外，如何评估生成段落与原始数据集的可比性，也是该数据集构建过程中需要解决的关键问题。

常用场景

经典使用场景

在信息检索领域，synthetic-passages-msmarco-queries数据集被广泛应用于评估和优化检索模型的性能。通过生成不同难度级别的文本段落，该数据集能够模拟真实世界中的查询-文档匹配场景，帮助研究人员测试模型在处理复杂查询时的表现。特别是在研究如何提升模型对噪声和无关信息的鲁棒性时，该数据集提供了丰富的实验材料。

解决学术问题

该数据集解决了信息检索领域中的一个关键问题，即如何生成高质量的合成数据以补充真实数据集。通过使用大型语言模型生成不同难度级别的段落，研究人员能够更全面地评估检索模型的性能，尤其是在处理模糊查询或噪声数据时的表现。这一创新为信息检索模型的训练和评估提供了新的视角，推动了该领域的技术进步。

实际应用

在实际应用中，synthetic-passages-msmarco-queries数据集被用于优化搜索引擎和推荐系统的性能。通过模拟不同难度级别的查询-文档匹配场景，该数据集帮助开发人员测试和改进系统的检索算法，从而提升用户体验。特别是在处理复杂查询或噪声数据时，该数据集为系统优化提供了重要的参考依据。

数据集最近研究