lm25

Hugging Face2025-03-10 更新2025-03-11 收录

下载链接：

https://huggingface.co/datasets/dleemiller/lm25

下载链接

链接失效反馈

官方服务：

资源简介：

LM25数据集包含由NanoBEIR数据集增强的查询。该数据集通过9种指令作为思维游戏来生成查询扩展，并监控这些查询的检索分数改进。使用Llama 3.3 70B模型从成功指令的结果中生成合成的思考数据。数据集分为正常和简洁两个版本，以适应不同长度的思考数据生成。

创建时间：

2025-03-09

搜集汇总

数据集介绍

构建方式

LM25数据集的构建是通过采用NanoBEIR数据集中的查询进行增强，并利用9套指令作为“心智游戏”以产生查询扩展。这些指令旨在作为使用LLM在思考过程中发现和展现查询术语的技术。经过监控每个指令的`delta`检索得分改进，并通过多个推理模型运行以找到最成功的查询增强，最终使用Llama 3.3 70B模型从结果中创建合成的‘思考’数据。

特点

该数据集的特点在于包含经过精心设计的查询扩展指令，这些指令模拟人类思考过程以生成查询。数据集分为‘normal’和‘concise’两种长度版本，以适应不同的思考数据长度需求。此外，原始数据集中许多字段可能包含`null`数据，但仅保留与成功指令数据相关的信息以用于生成思考数据。

使用方法

使用LM25数据集时，用户可以根据需求选择‘raw’、‘sft’或‘sft-concise’配置文件。每个配置都包含训练数据，可用于进一步模型训练或分析。用户需注意，数据处理时需排除包含`null`值的行，以保障数据的质量和一致性。

背景与挑战

背景概述

LM25数据集是在信息检索领域中，针对查询扩展技术的一个研究工具。该数据集由NanoBEIR数据集的增强查询构成，创建于对大型语言模型（LLM）进行思维游戏指令的研究背景下，旨在探索LLM在发现和提取查询过程中的术语。该数据集的创建可追溯至使用Llama 3.3 70B模型进行推理的时期，其核心研究问题是提高检索分数，进而优化查询扩展的质量。LM25数据集的构建集中体现了研究者在提升信息检索技术方面的努力，对相关领域的发展具有一定的推动作用。

当前挑战

LM25数据集在构建过程中面临的主要挑战包括：如何有效地监控和评估9种不同思维游戏指令对检索分数的提升效果，以及如何处理和利用产生的合成思考数据。此外，数据集在处理过程中遇到了数据完整性问题，例如，原始数据集中许多字段存在空值，需筛选出与成功指令相关的数据。构建数据集时还需考虑生成正常长度和简洁长度的思考数据集，以满足不同研究需求，这对数据预处理和标注提出了更高的要求。

常用场景

经典使用场景

在信息检索领域，LM25数据集以其独特的查询扩展技术，成为研究查询优化和检索效率提升的重要资源。该数据集通过设计九种思维游戏指令，模拟人类思维过程，以增强查询的深度和广度，进而提升检索系统的性能。

解决学术问题

LM25数据集解决了传统检索系统中查询表达过于狭隘，检索结果不够准确和全面的问题。通过使用该数据集，研究者能够探索如何通过查询扩展来优化检索算法，从而在学术研究中提升信息检索的相关性和效率。

衍生相关工作

基于LM25数据集的研究衍生出了一系列相关工作，包括查询扩展策略的优化、思维游戏指令的改进，以及结合深度学习模型的检索算法研究。这些工作进一步拓展了信息检索领域的研究边界，推动了相关技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集