five

lm25

收藏
Hugging Face2025-03-10 更新2025-03-11 收录
下载链接:
https://huggingface.co/datasets/dleemiller/lm25
下载链接
链接失效反馈
官方服务:
资源简介:
LM25数据集包含由NanoBEIR数据集增强的查询。该数据集通过9种指令作为思维游戏来生成查询扩展,并监控这些查询的检索分数改进。使用Llama 3.3 70B模型从成功指令的结果中生成合成的思考数据。数据集分为正常和简洁两个版本,以适应不同长度的思考数据生成。
创建时间:
2025-03-09
搜集汇总
数据集介绍
main_image_url
构建方式
LM25数据集的构建是通过采用NanoBEIR数据集中的查询进行增强,并利用9套指令作为“心智游戏”以产生查询扩展。这些指令旨在作为使用LLM在思考过程中发现和展现查询术语的技术。经过监控每个指令的`delta`检索得分改进,并通过多个推理模型运行以找到最成功的查询增强,最终使用Llama 3.3 70B模型从结果中创建合成的‘思考’数据。
特点
该数据集的特点在于包含经过精心设计的查询扩展指令,这些指令模拟人类思考过程以生成查询。数据集分为‘normal’和‘concise’两种长度版本,以适应不同的思考数据长度需求。此外,原始数据集中许多字段可能包含`null`数据,但仅保留与成功指令数据相关的信息以用于生成思考数据。
使用方法
使用LM25数据集时,用户可以根据需求选择‘raw’、‘sft’或‘sft-concise’配置文件。每个配置都包含训练数据,可用于进一步模型训练或分析。用户需注意,数据处理时需排除包含`null`值的行,以保障数据的质量和一致性。
背景与挑战
背景概述
LM25数据集是在信息检索领域中,针对查询扩展技术的一个研究工具。该数据集由NanoBEIR数据集的增强查询构成,创建于对大型语言模型(LLM)进行思维游戏指令的研究背景下,旨在探索LLM在发现和提取查询过程中的术语。该数据集的创建可追溯至使用Llama 3.3 70B模型进行推理的时期,其核心研究问题是提高检索分数,进而优化查询扩展的质量。LM25数据集的构建集中体现了研究者在提升信息检索技术方面的努力,对相关领域的发展具有一定的推动作用。
当前挑战
LM25数据集在构建过程中面临的主要挑战包括:如何有效地监控和评估9种不同思维游戏指令对检索分数的提升效果,以及如何处理和利用产生的合成思考数据。此外,数据集在处理过程中遇到了数据完整性问题,例如,原始数据集中许多字段存在空值,需筛选出与成功指令相关的数据。构建数据集时还需考虑生成正常长度和简洁长度的思考数据集,以满足不同研究需求,这对数据预处理和标注提出了更高的要求。
常用场景
经典使用场景
在信息检索领域,LM25数据集以其独特的查询扩展技术,成为研究查询优化和检索效率提升的重要资源。该数据集通过设计九种思维游戏指令,模拟人类思维过程,以增强查询的深度和广度,进而提升检索系统的性能。
解决学术问题
LM25数据集解决了传统检索系统中查询表达过于狭隘,检索结果不够准确和全面的问题。通过使用该数据集,研究者能够探索如何通过查询扩展来优化检索算法,从而在学术研究中提升信息检索的相关性和效率。
衍生相关工作
基于LM25数据集的研究衍生出了一系列相关工作,包括查询扩展策略的优化、思维游戏指令的改进,以及结合深度学习模型的检索算法研究。这些工作进一步拓展了信息检索领域的研究边界,推动了相关技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作