Aloe Beta

Name: Aloe Beta
Creator: 巴塞罗那超级计算中心（BSC-CNS），西班牙
Published: 2025-05-07 21:13:14
License: 暂无描述

arXiv2025-05-07 更新2025-05-09 收录

下载链接：

https://huggingface.co/collections/HPAI-BSC/aloe-beta-datasets-672374294ed56f43dc302499

下载链接

链接失效反馈

官方服务：

资源简介：

Aloe Beta数据集是巴塞罗那超级计算中心（BSC-CNS）和加泰罗尼亚理工大学（UPC）联合开发的医疗领域大型语言模型（LLM）训练数据集。该数据集包含1.2M条医学数据指令和420K条通过LLM生成的医学数据指令，旨在提高模型在医疗领域的专业知识和响应用户指令的能力。数据集由高质量的医学数据集和通过LLM生成的合成数据组成，旨在解决医疗领域LLM开发中的数据不足问题，并提高模型的安全性和可靠性。

The Aloe Beta dataset is a large language model (LLM) training dataset for the medical domain, jointly developed by the Barcelona Supercomputing Center (BSC-CNS) and the Polytechnic University of Catalonia (UPC). It contains 1.2 million medical data instruction samples and 420,000 LLM-generated medical data instruction samples, with the goal of enhancing the model's professional medical expertise and its capacity to respond to user instructions. The dataset is composed of high-quality medical datasets and LLM-generated synthetic data, designed to resolve the shortage of training data for medical LLMs and improve the safety and reliability of such models.

提供机构：

巴塞罗那超级计算中心（BSC-CNS），西班牙

创建时间：

2025-05-07

搜集汇总

数据集介绍

构建方式

Aloe Beta数据集的构建采用了多阶段训练方法，包括监督微调（SFT）、模型合并和模型对齐。首先，通过精选的医疗数据集和合成增强数据对预训练基础模型进行监督微调，以增强模型在医疗领域的专业知识。随后，利用模型合并技术整合不同模型的参数，以提高模型的泛化能力和鲁棒性。最后，通过直接偏好优化（DPO）进行模型对齐，确保模型输出符合医疗领域的伦理和安全标准。

使用方法

Aloe Beta数据集的使用方法包括三个主要步骤：监督微调、模型合并和模型对齐。用户可以根据需要选择不同的预训练基础模型（如Llama 3.1或Qwen 2.5），并使用提供的训练脚本和超参数进行微调。数据集还支持检索增强生成（RAG）技术，以进一步提升模型在医疗问答任务中的表现。所有数据集和模型权重均公开提供，便于复现和进一步研究。

背景与挑战

背景概述

Aloe Beta数据集由巴塞罗那超级计算中心（BSC-CNS）和加泰罗尼亚理工大学（UPC）的研究团队于2025年发布，旨在推动开源医疗领域大型语言模型（LLMs）的发展。该数据集专注于医疗健康领域，通过优化数据预处理和训练流程，提升模型的安全性和有效性。Aloe Beta基于Llama 3.1和Qwen 2.5等强大的预训练模型，结合自定义数据集和合成数据增强技术，特别是通过链式思维（Chain of Thought, CoT）方法生成高质量医疗问答对。其核心研究问题包括如何在医疗领域实现高效、透明的模型微调，以及如何通过模型对齐（如直接偏好优化DPO）提升伦理和安全性能。Aloe Beta的发布为医疗AI领域树立了新的标准，推动了开源模型在医疗应用中的普及和可靠性。

当前挑战

Aloe Beta数据集面临的挑战主要包括两方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，医疗数据的专业性和敏感性要求模型具备高度的准确性和安全性，避免产生误导性或有害的输出。此外，医疗领域的问题多样且复杂，涵盖诊断、治疗规划、临床笔记等多种任务，需要模型具备广泛的专业知识。在构建过程中，数据质量的控制是一大挑战，尤其是合成数据的生成需确保其事实性和可靠性。数据去重、去污染和过滤低质量样本也是关键步骤。此外，模型对齐阶段需有效应对越狱攻击（jailbreaking），确保模型在恶意提示下仍能生成安全、伦理的响应。这些挑战需要通过多阶段训练、精细的数据预处理和严格的安全评估来解决。

常用场景

经典使用场景

Aloe Beta数据集专为医疗领域的大型语言模型（LLM）优化而设计，其经典使用场景包括医疗问答系统、临床决策支持和医学文献摘要生成。通过整合真实医疗数据和合成推理链示例，该数据集能够显著提升模型在复杂医学问题中的推理能力，例如诊断建议、治疗方案生成和多轮医患对话模拟。其多阶段训练流程（指令微调、模型融合和对齐）特别适用于需要高准确性和安全性的医疗应用场景。

解决学术问题

该数据集解决了医疗LLM领域三个关键学术问题：一是通过合成思维链数据缓解医疗数据稀缺性，增强模型推理能力；二是提出基于DPO的安全对齐方法，有效降低模型在越狱攻击下的有害输出概率（大型模型攻击成功率<9%）；三是建立包含MCQA、开放式评估、人工评测和安全测试的四维评估体系，为医疗LLM性能评估设立新标准。其发布的70B/72B模型在MultiMedQA等基准测试中达到80.88/82.54准确率，媲美私有模型性能。

实际应用

在实际医疗场景中，Aloe Beta支持三大核心应用：1) 临床辅助决策系统，通过RAG架构整合最新医学指南，在MedPrompt测试中使70B模型准确率提升至84.82%；2) 患者教育平台，基于安全对齐技术可靠解答常见医疗咨询（人类专家偏好率提升12%）；3) 医学研究助手，利用16K长上下文处理能力辅助文献综述和SOAP病历生成。特别在资源匮乏地区，其开源特性可降低医疗AI部署门槛。

数据集最近研究