FedLLM-Bench

Name: FedLLM-Bench
Creator: 上海交通大学
Published: 2024-06-07 19:19:30
License: 暂无描述

arXiv2024-06-07 更新2024-06-21 收录

下载链接：

https://github.com/rui-ye/FedLLM-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

FedLLM-Bench是由上海交通大学和上海人工智能实验室等机构联合开发的数据集，包含四个子数据集：Fed-Aya、Fed-ChatbotIT、Fed-WildChat和Fed-ChatbotPA。这些数据集涵盖了从38到747个客户端，涉及多语言、质量、数量、指令、长度、嵌入和偏好等多个维度，旨在模拟真实世界的多语言协作场景。数据集的创建过程考虑了客户端数据的自然分割，确保了数据的真实性和多样性。FedLLM-Bench的应用领域主要集中在联邦学习大型语言模型的性能评估和方法比较，以及推动新研究方向的探索。

FedLLM-Bench is a dataset jointly developed by Shanghai Jiao Tong University, Shanghai AI Laboratory and other institutions. It comprises four sub-datasets: Fed-Aya, Fed-ChatbotIT, Fed-WildChat and Fed-ChatbotPA. These datasets cover client scales ranging from 38 to 747, and involve multiple dimensions including multilingualism, data quality, data volume, instructions, sequence length, embeddings and preferences, aiming to simulate real-world multilingual collaborative scenarios. The dataset creation process considers the natural partitioning of client-side data, ensuring the authenticity and diversity of the collected data. The application fields of FedLLM-Bench mainly focus on performance evaluation and method comparison for federated learning large language models (LLMs), as well as promoting the exploration of new research directions.

提供机构：

上海交通大学

创建时间：

2024-06-07

搜集汇总

数据集介绍

构建方式

在联邦学习与大语言模型融合的背景下，FedLLM-Bench的构建旨在填补现实场景数据集的空白。该数据集通过自然划分真实用户数据而成，涵盖了联邦指令微调与偏好对齐两大核心任务。具体而言，其基于四个现有数据集——Aya、Chatbot-Arena-Conversations与WildChat，依据用户ID或IP地址进行划分，并过滤了贡献样本过少的用户，确保每个客户端的数据量具备实际代表性。客户端规模从38至747不等，数据总量达到数万条，涵盖了多语言对话、单轮与多轮聊天以及用户偏好等多种交互形式，从而在数据划分上避免了人工构造的局限性，真实反映了跨设备联邦学习中的数据分布特性。

特点

FedLLM-Bench的突出特点在于其多维度的现实多样性，精准捕捉了真实联邦学习环境中的复杂数据特性。数据集在语言层面覆盖了包括英语、西班牙语、中文等在内的八种语言，体现了多语言协作的实际需求；在质量与数量上，各客户端的数据呈现出显著异质性，符合现实应用中数据分布不均的普遍现象。此外，数据在指令类型、序列长度、语义嵌入及用户偏好等方面均展现出丰富差异，例如不同用户对回复长度与内容质量的偏好各不相同。这些多样性不仅增强了数据集的现实代表性，也为联邦大语言模型的研究提供了全面且贴近实际应用的测试基准。

使用方法

FedLLM-Bench为联邦大语言模型的研究提供了系统化的评估框架。使用者可通过其开源代码库便捷地调用八种基线训练方法，包括FedAvg、FedProx、SCAFFOLD等经典联邦学习算法，并结合六种评估指标进行模型性能测评。这些指标涵盖开放域与封闭域两类：开放域评估如MT-Bench、Vicuna Bench等关注模型的指令遵循与对话能力；封闭域评估如MMLU、HumanEval则检验模型的知识保留与代码生成能力。在实际应用中，研究人员可基于不同数据集开展联邦指令微调或偏好对齐实验，通过参数高效微调技术如LoRA降低计算开销，并依据实验需求调整客户端采样、本地训练轮数等超参数，从而在保护数据隐私的前提下实现模型协作优化与公平比较。

背景与挑战

背景概述

随着大语言模型在集中式训练范式下取得显著成就，联邦学习作为一种隐私保护的协作训练范式，为多方在不共享原始数据的前提下联合训练大语言模型提供了可行路径。然而，该领域长期缺乏能够真实反映跨用户数据特性的基准数据集，先前研究多依赖对现有集中式数据的人工划分，难以捕捉现实场景中的复杂多样性。为此，上海交通大学、清华大学及上海人工智能实验室的研究团队于2024年提出了FedLLM-Bench，作为首个面向联邦大语言模型训练的实用化基准。该基准整合了四个基于真实用户标识自然划分的数据集，涵盖联邦指令微调与偏好对齐两大核心任务，客户端规模介于38至747之间，并引入了语言、质量、数量、指令、长度、嵌入及偏好等多维度多样性，旨在为联邦大语言模型研究提供贴近现实的评估平台，推动领域内方法的公平比较与有效创新。

当前挑战

FedLLM-Bench致力于解决联邦大语言模型训练中两大核心挑战。在领域问题层面，该数据集针对联邦指令微调与偏好对齐任务，旨在克服传统人工划分数据所导致的数据分布同质化问题，通过引入真实用户数据中的异构性，如多语言协作中的语言差异、用户指令的模式多样性以及偏好响应的不一致性，以更精准地评估模型在复杂现实环境下的泛化与协作效能。在构建过程中，研究团队面临数据自然划分的复杂性挑战，需依据真实用户标识对原始数据进行筛选与重组，确保客户端数据在规模、质量及内容上呈现显著异质；同时，为全面刻画数据特性，需设计多维度度量指标以量化语言分布、指令跟随难度及偏好差异，并在此基础上集成多样化的基线方法与评估体系，以构建统一且可复现的基准测试环境。

常用场景

经典使用场景

在联邦学习与大型语言模型融合的研究领域，FedLLM-Bench作为首个现实场景基准测试平台，其经典应用场景聚焦于模拟真实世界中的多用户协作训练环境。该数据集通过自然划分的用户标识构建了涵盖指令微调与偏好对齐两大核心任务的四个子集，如Fed-Aya多语言数据集和Fed-ChatbotPA偏好数据集，客户规模从38至747不等，精准复现了跨设备联邦学习中由用户设备自然分割的数据分布特性。研究者可依托该平台，在保护数据隐私的前提下，评估不同联邦学习算法在异构数据环境下的性能表现，尤其适用于探索多语言协作、数据质量差异及用户偏好多样性等复杂场景下的模型优化策略。

实际应用

FedLLM-Bench的实际应用价值体现在其能够支撑隐私敏感场景下的大语言模型协同训练。例如，在跨国企业或科研机构中，各分支拥有不同语言或领域的数据资源，但受限于隐私法规无法直接共享；通过该数据集模拟的联邦学习环境，可指导开发能够在本地数据上训练、并通过安全聚合实现知识融合的分布式模型。在医疗、金融等领域，该基准有助于设计符合数据隔离要求的对话系统或决策辅助工具，确保用户数据不出本地的同时提升模型性能。此外，其多语言与偏好对齐数据集也为开发适应区域文化差异的个性化智能助手提供了关键训练与评估资源。

衍生相关工作

FedLLM-Bench的发布催生了一系列围绕联邦大语言模型优化的衍生研究。基于其提供的多语言异质性数据，学者们探索了语言个性化联邦学习算法，旨在平衡跨语言协作与本地化适配；在偏好对齐任务上，该数据集促进了针对用户偏好差异的联邦优化方法，如动态加权聚合与本地正则化技术。同时，该基准启发了对联邦学习中差分隐私保护机制的深入研究，例如在Fed-WildChat数据集上验证用户级隐私保护与模型性能的权衡。这些工作不仅扩展了联邦学习在自然语言处理中的应用边界，也为构建更安全、高效的分布式人工智能系统奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集