FlowerTune

Name: FlowerTune
Creator: Flower Labs, University of Cambridge, Entrust Corp, Zhejiang University, Penn State University, Alibaba Group, University of Nevada, Reno, Gachon University, The University of Melbourne, The University of Adelaide, Sony AI
Published: 2025-06-03 22:54:12
License: 暂无描述

arXiv2025-06-03 更新2025-06-05 收录

下载链接：

https://github.com/yan-gao-GY/flowertune-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

FlowerTune 是一个跨领域的联邦微调大型语言模型（LLM）基准测试套件，旨在评估在四个不同领域（通用 NLP、金融、医疗和编码）中进行联邦微调的 LLM 的性能。数据集由 Flower Labs 和其他研究机构创建，包括来自各个领域的联邦指令微调数据集和特定领域的评估指标。FlowerTune 通过开源和社区驱动的协作方式，提供了对 26 个预训练 LLM 在联邦设置下不同聚合和微调策略下的全面比较，为开发隐私保护、领域专业的 LLM 提供了基础。

FlowerTune is a cross-domain federated fine-tuning large language model (LLM) benchmark suite designed to evaluate the performance of LLMs undergoing federated fine-tuning across four distinct domains: general NLP, finance, healthcare, and coding. Developed by Flower Labs and other research institutions, the dataset includes federated instruction fine-tuning datasets from various domains and domain-specific evaluation metrics. Through an open-source and community-driven collaborative approach, FlowerTune provides a comprehensive comparison of 26 pre-trained LLMs under different aggregation and fine-tuning strategies in federated settings, laying a foundation for the development of privacy-preserving, domain-specialized LLMs.

提供机构：

Flower Labs, University of Cambridge, Entrust Corp, Zhejiang University, Penn State University, Alibaba Group, University of Nevada, Reno, Gachon University, The University of Melbourne, The University of Adelaide, Sony AI

创建时间：

2025-06-03

原始信息汇总

FlowerTune LLM Benchmark 数据集概述

数据集简介

该数据集用于在四个领域（通用NLP、金融、医疗和代码）进行联邦指令调优实验。
实验基于论文《FlowerTune: A Cross-Domain Benchmark for Federated Fine-Tuning of Large Language Models》。

数据来源

使用Flower Datasets下载、分区和预处理数据。

实验环境

依赖项定义在各项目的pyproject.toml文件中。
需要安装FlashAttention-2：pip install flash-attn --no-build-isolation。

运行联邦调优

通过Hugging-Face账户获取模型访问权限。
使用huggingface-cli login登录Hugging-Face账户。
可选：使用wandb login登录W&B账户进行实验状态记录。
运行命令：
- 默认配置：flwr run
- 自定义配置示例： bash flwr run --run-config "model.name=mistralai/Mistral-7B-v0.3 run-name=customised_name use-wandb=false"

模型保存

默认每5轮保存一次全局PEFT模型检查点。
可通过修改pyproject.toml中的train.save-every-round进行调整。

实验模型检查点

论文中调优的模型检查点：
- 通用NLP
- 金融
- 医疗
- 代码
实验设备：NVIDIA A100 SXM4 (80 GB) GPUs（Mistral-24B模型使用NVIDIA H100 NVL GPU (94 GB)）。
检查点仅限研究用途。

评估

评估方法详见FlowerTune Evaluation GitHub。

搜集汇总

数据集介绍

构建方式

FlowerTune数据集通过精心挑选四个领域的公开数据集构建，包括通用NLP（alpaca-gpt4）、金融（fingpt-sentiment-train）、医疗（medical-flashcards）和编程（code-alpaca-20k）。每个数据集包含特定领域的指令提示和对应答案，旨在训练LLM成为各领域的助手。数据集通过Flower Datasets进行分片，模拟联邦学习环境中的机构数据分布。

使用方法

使用FlowerTune数据集时，参与者可选择特定领域挑战，利用提供的模板实现联邦方法和LLM模型。该模板与模型无关，支持多种调优技术和聚合算法。调优完成后，使用领域特定的评估流程对模型进行零样本评估，确保公平比较。数据集还支持测量通信开销和内存使用等系统级指标。

背景与挑战

背景概述

FlowerTune是由Flower Labs、剑桥大学等机构的研究团队于2025年提出的跨领域联邦学习基准测试框架，旨在解决大语言模型（LLMs）在隐私敏感场景下的分布式微调问题。该数据集聚焦通用NLP、金融、医疗和代码生成四大领域，通过整合Alpaca-GPT4、FinGPT等26个预训练模型，首次系统评估了联邦环境下参数高效微调（PEFT）技术的兼容性。其创新性体现于：1）构建首个支持多领域指令微调的联邦评估体系；2）提出模型无关的LoRA/DoRA适配器传输协议；3）建立包含52K-76.8K样本的跨机构数据划分标准，为医疗金融等敏感领域提供了合规的研究范式。

当前挑战

FlowerTune面临的核心挑战包含技术层与实施层两个维度：在技术层面，需解决非独立同分布（Non-IID）数据导致的客户端模型漂移问题，特别是在医疗领域问答任务中，不同机构的专业术语分布差异使全局模型准确率波动达23.6%；在实施层面，14B参数模型的单轮通信成本高达126.93GB，而VRAM占用峰值为60.48GB，这对边缘设备的计算存储提出严峻挑战。此外，代码生成任务中模型容量与性能的非线性关系（如1.7B模型仅达27.15% Pass@1）揭示了轻量化与任务复杂度间的固有矛盾。

常用场景

经典使用场景

FlowerTune数据集作为首个专注于联邦微调大语言模型（LLM）的跨领域基准测试套件，其经典使用场景集中在四大敏感数据领域：通用自然语言处理（NLP）、金融、医疗和编程。研究者通过该数据集可模拟真实场景下的联邦学习环境，例如医疗机构在不共享原始病历数据的情况下协作优化医疗问答模型，或金融机构联合训练金融情绪分析模型。数据集提供的标准化指令微调流程支持26种预训练LLM的横向对比，尤其适合评估模型在非独立同分布（Non-IID）数据下的泛化能力。

解决学术问题

该数据集系统性地解决了联邦学习中三个核心学术问题：其一，填补了预训练LLM在联邦环境下兼容性研究的空白，通过量化分析不同参数规模模型（1.35亿至140亿参数）在跨领域任务中的表现差异；其二，验证了参数高效微调技术（如LoRA/DoRA）在资源受限场景的可行性，将通信开销降低至传统方法的1/5；其三，建立了首个多领域评估体系，包含医疗QA准确率、代码生成Pass@1等12项指标，为隐私保护与领域适应的权衡研究提供实证基础。其创新性体现在将联邦学习的隐私优势与LLM的泛化能力相结合，推动《Nature Machine Intelligence》等期刊关注的可持续AI数据范式发展。

实际应用

在实际应用中，FlowerTune已成功支撑多个产业级场景：医疗领域协助构建符合HIPAA合规的分布式诊断助手，通过联邦微调使Llama-3模型在MedMCQA上的准确率提升37%；金融领域应用于跨机构反洗钱模型训练，利用FinGPT数据集实现85%的欺诈交易识别率；代码生成场景则赋能企业级开发工具，在MBPP基准测试中使Qwen2.5-7B的生成通过率提高至64%。特别值得注意的是，其内置的VRAM监控工具（如A100显卡下<80GB的限制）大幅降低了中小企业参与联邦学习的硬件门槛。

数据集最近研究