five

F2LLM

收藏
arXiv2025-10-03 更新2025-10-04 收录
下载链接:
https://github.com/codefuse-ai/CodeFuse-Embeddings
下载链接
链接失效反馈
官方服务:
资源简介:
F2LLM是一个基于大型语言模型的嵌入模型系列,分为0.6B、1.7B和4B三个规模。与之前需要大量对比预训练、复杂训练流程和高成本合成训练数据的顶级嵌入模型不同,F2LLM直接在开源非合成数据集上对基础模型进行微调,实现了训练成本、模型规模和嵌入性能之间的平衡。

F2LLM is a series of embedding models based on large language models, with three model sizes: 0.6B, 1.7B and 4B. Unlike state-of-the-art embedding models that require extensive contrastive pre-training, complex training pipelines and high-cost synthetic training data, F2LLM directly fine-tunes its base models on open-source non-synthetic datasets, striking a balance among training cost, model scale and embedding performance.
提供机构:
蚂蚁集团, 上海交通大学
创建时间:
2025-10-03
搜集汇总
数据集介绍
main_image_url
构建方式
在文本嵌入模型研究领域,F2LLM通过精心构建的600万条开源非合成数据实现了高效训练。该数据集整合了490万检索样本、20万分类样本和80万聚类样本,采用统一的(查询,正例文档,难负例×n)三元组格式。通过基于边界的自适应难负例挖掘技术,利用Qwen3-Embedding-0.6B模型筛选相关性分数低于0.8且不超过正例分数95%的负例,确保每个查询配备24个高质量难负例。这种数据构建方法在保持数据纯净度的同时,显著提升了模型的判别能力。
特点
F2LLM数据集最显著的特征在于其完全基于开源非合成数据的构建理念,避免了依赖LLM生成合成数据的高昂成本。该数据集覆盖了检索、分类和聚类三大任务类型,通过任务特定指令的统一格式化处理,实现了多任务数据的有机整合。在模型架构方面,F2LLM直接基于Qwen3基础模型进行单阶段对比微调,无需复杂的多阶段训练流程或模型结构修改。这种设计使得F2LLM在MTEB英文榜单上取得了卓越表现,其中4B模型在同等规模模型中排名第二,1.7B模型在1B-2B规模区间位列第一。
使用方法
使用F2LLM数据集时,研究人员可采用标准的对比学习框架进行模型训练。训练过程中结合难负例损失和批内损失,其中难负例损失针对所有任务类型计算,批内损失则专门用于检索任务。通过自定义的多任务数据加载器,确保每个微批次中的样本来自同一数据源,同时保持不同任务类型的数据采样平衡。在推理阶段,F2LLM支持最大1024个令牌的输入长度,可直接应用于信息检索、文本聚类、情感分类等下游任务。该数据集完全开源,包括模型检查点、训练数据和代码,为文本嵌入研究提供了可复现的基准。
背景与挑战
背景概述
F2LLM数据集由蚂蚁集团与上海交通大学于2025年联合发布,旨在构建高效的大语言模型嵌入系统。该数据集聚焦于解决文本嵌入模型对海量合成数据与复杂训练流程的依赖问题,通过整合600万条开源非合成查询-文档-负例三元组,实现了模型性能与训练成本的优化平衡。其在MTEB英文榜单中,4B参数模型取得同规模第二、总榜第七的排名,显著推动了可复现嵌入模型研究的发展。
当前挑战
在领域问题层面,F2LLM需应对文本嵌入任务中多粒度语义对齐的挑战,包括检索、分类与聚类任务间的表征一致性优化。构建过程中,面临开源数据分散性与质量不均的难题,需通过自适应负例挖掘与多任务统一格式化处理,确保跨领域数据的协同训练效果。此外,需在避免架构修改的前提下,实现基础模型向嵌入任务的高效迁移。
常用场景
解决学术问题
F2LLM数据集有效解决了嵌入模型训练中数据分散和格式不统一的学术难题。通过系统整合多源开放数据并采用统一的指令格式,该数据集消除了传统方法对合成数据的依赖,为可复现研究提供了坚实基础。在模型架构方面,F2LLM验证了直接从基础模型进行单阶段微调的可行性,突破了传统多阶段训练流程的局限。其创新的边界自适应硬负例挖掘技术,显著提升了模型在细粒度语义区分任务上的性能,为嵌入模型的轻量化设计提供了新的研究方向。
衍生相关工作
基于F2LLM数据集的开源特性,学术界已衍生出多项创新研究。在训练方法层面,研究者借鉴其硬负例挖掘策略,开发了更高效的对比学习算法;在模型架构方面,该数据集为注意力机制优化研究提供了验证平台。部分工作专注于扩展多语言能力,通过迁移学习将F2LLM的成功经验应用于跨语言嵌入任务。此外,该数据集还催生了多个轻量化嵌入模型的研究,这些工作通过在F2LLM基础上进行知识蒸馏和模型压缩,进一步推动了嵌入技术在资源受限环境下的应用普及。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作