query-expansion

Hugging Face2024-12-25 更新2024-12-26 收录

下载链接：

https://huggingface.co/datasets/s-emanuilov/query-expansion

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在训练搜索查询扩展模型，能够为给定查询生成多个语义扩展。数据集通过使用多种大型语言模型生成，并经过手动整理以确保质量。数据集格式为JSONL，每个条目包含原始查询和3-7个语义扩展。数据集适用于训练小型语言模型，以提高搜索系统的性能。

创建时间：

2024-12-24

搜集汇总

数据集介绍

构建方式

该数据集的构建采用了多种先进的预训练大语言模型（LLMs），这些模型被用于生成涵盖广泛主题和不同用户意图的查询。为了减少单一模型可能引入的偏见，研究者选择了多个LLMs进行数据生成。生成的查询涵盖了信息性、导航性、交易性和商业性等多种意图，确保了数据集的多样性和全面性。在生成后，数据经过人工筛选和整理，以确保其高质量。

特点

该数据集专为训练搜索查询扩展模型而设计，能够为给定查询生成多个语义扩展。其特点在于涵盖了多种查询类型，包括信息性、导航性、交易性和商业性查询，且每个原始查询均附带3至7个语义扩展。这种结构使得数据集能够有效支持小规模语言模型的训练，帮助其在搜索系统中实现高效的查询扩展功能，从而提升检索性能。

使用方法

该数据集的使用方法简单直观，用户可以通过Hugging Face的`datasets`库直接加载数据集。加载后，数据集以JSONL格式呈现，每个条目包含一个原始查询及其对应的多个语义扩展。用户可以利用这些数据训练自定义的查询扩展模型，或将其集成到现有的搜索系统架构中，如检索增强生成（RAG）系统，以优化搜索结果的准确性和相关性。

背景与挑战

背景概述

Query Expansion数据集由Simeon Emanuilov于2024年创建，旨在为训练搜索查询扩展模型提供数据支持。该数据集的核心研究问题在于如何通过生成多个语义扩展来增强搜索查询的效果，从而提升检索系统的整体性能。数据集的设计初衷是服务于小型语言模型（0.5B至3B参数）的训练，使其能够在各种搜索系统中充当查询扩展器，尤其是在检索增强生成（RAG）系统中。通过使用多样化的先进大语言模型生成数据，并结合人工筛选，确保了数据的高质量和广泛覆盖。这一数据集为开发高效、低延迟的查询扩展模型提供了重要基础，对搜索技术领域的研究和应用具有显著影响。

当前挑战

Query Expansion数据集在解决搜索查询扩展问题时面临多重挑战。首先，如何确保生成的语义扩展既具有多样性又能准确反映原始查询的意图，是一个技术难点。其次，尽管数据集通过使用多种大语言模型减少了单一模型的偏见，但如何进一步优化数据生成过程以消除潜在的偏差仍需深入探索。此外，构建过程中的人工筛选虽然提升了数据质量，但也带来了较高的时间和人力成本。最后，尽管该数据集为小型语言模型的训练提供了支持，但在实际应用中，如何平衡模型性能与计算资源消耗仍是一个亟待解决的问题。

常用场景

经典使用场景

在信息检索领域，Query Expansion数据集被广泛用于训练小型语言模型，以生成给定查询的多种语义扩展。这些扩展能够显著提升搜索系统的检索效果，尤其是在检索增强生成（RAG）系统中，通过增加相关查询的多样性，帮助系统更准确地捕捉用户意图。

衍生相关工作

基于该数据集，衍生了一系列经典研究工作，包括高效查询扩展模型的开发、语义搜索算法的优化以及检索增强生成系统的改进。这些工作不仅推动了信息检索领域的技术进步，还为其他相关领域如自然语言处理和知识图谱构建提供了重要的参考和启发。

数据集最近研究