CollectiveSFT

Name: CollectiveSFT
Creator: 中国科学技术大学
Published: 2024-07-30 16:23:05
License: 暂无描述

arXiv2024-07-30 更新2024-08-02 收录

下载链接：

https://github.com/CAS-SIAT-XinHai/CollectiveSFT

下载链接

链接失效反馈

官方服务：

资源简介：

CollectiveSFT数据集由中国科学技术大学等机构创建，专注于中文医疗领域的语言模型评估。该数据集包含多种类型的医疗对话和问答数据，总计约470万条记录，旨在通过多样化的数据提升模型在医疗场景中的性能。数据集的创建过程包括从多个公开数据源收集和标准化数据，确保数据质量和多样性。该数据集主要用于优化和评估医疗领域的大型语言模型，特别是在处理医疗咨询和诊断任务时。

The CollectiveSFT dataset was developed by institutions including the University of Science and Technology of China, focusing on language model evaluation in the Chinese medical domain. This dataset includes various types of medical dialogue and question-answering data, totaling approximately 4.7 million records, aiming to improve the performance of models in medical scenarios through diverse data. The dataset creation process involves collecting and standardizing data from multiple public data sources to ensure data quality and diversity. It is primarily used to optimize and evaluate large language models (LLMs) in the medical field, especially when handling medical consultation and diagnostic tasks.

提供机构：

中国科学技术大学

创建时间：

2024-07-29

原始信息汇总

CollectiveSFT

概述

CollectiveSFT 是一个用于中文医疗基准测试的大型语言模型，通过集体指令在医疗保健领域进行扩展。

预处理

在 preprocess 文件夹中，包含了将数据集转换为 Alpaca 格式的所有转换脚本。使用这些脚本前，请注意可能需要申请访问某些数据集。

训练

训练配置文件位于 train 文件夹中。可以使用 LLaMA-Factory 仓库进行模型训练。首先安装 llamafactory-cli，然后运行以下命令开始训练：

sh FORCE_TORCHRUN=1 llamafactory-cli train train/collectivesft.yaml

确保 dataset_info.json 和所有必需数据在 data 文件夹中。

评估

可以使用 CMB 仓库生成答案。在 eval 文件夹中提供了一些有用的脚本，帮助快速验证和评分结果。

引用

如果该工作对您的研究有帮助，请引用以下论文：

tex @misc{zhu2024collectivesftscalinglargelanguage, title={CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark with Collective Instructions in Healthcare}, author={Jingwei Zhu and Minghuan Tan and Min Yang and Ruixue Li and Hamid Alinejad-Rokny}, year={2024}, eprint={2407.19705}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.19705}, }

搜集汇总

数据集介绍

构建方式

CollectiveSFT数据集的构建主要围绕提高大型语言模型在医疗领域的性能展开。该数据集通过整合多种类型的指令，包括来自医疗论坛的咨询记录、现实世界的对话重构以及其他来源，确保了数据集的多样性和广泛性。为了统一数据处理，所有收集的数据都被标准化为Alpaca格式，该格式包含指令、输入、输出等字段，方便模型的训练和微调。通过这种方式，数据集不仅为模型提供了丰富的医疗场景信息，还保证了数据的一致性和清晰度。

使用方法

使用CollectiveSFT数据集进行模型训练和微调时，首先需要将数据集转换为Alpaca格式，以确保数据的一致性和清晰度。接着，可以使用各种训练工具，如LLaMA-Factory等，对模型进行微调。在微调过程中，需要根据数据集的特点和模型的性能要求，调整超参数，如截断长度、训练周期和学习率等。通过这种方式，可以有效地提高模型在医疗领域的性能，使其能够更好地理解和处理各种医疗场景。

背景与挑战

背景概述

随着大型语言模型（LLMs）的快速进展，研究人员致力于创建各种基准以评估其能力。本研究聚焦于中文综合医学基准（CMB），探讨了监督微调（SFT）中数据集多样性和分布如何提升LLMs性能。研究人员成功训练了一个较小的基础模型，其得分可与较大模型相媲美，表明一个多样且分布良好的数据集可以在不考虑模型大小的前提下优化性能。研究还表明，即使较小的模型也可以通过精心策划和多样化的数据集达到高性能水平。

当前挑战

尽管取得了这些进展，但在为这些模型进行微调时使用的指令方面仍存在一些主要问题。首先，指令的多样性和分布可能仍然有限。为了解决这个问题，研究人员提出将各种类型的指令和相关领域整合到微调数据集中。此外，尽管微调的小型模型在回答选择题方面表现出色，但它们可能会失去一些对话能力。此外，观察到的常见问题是小型模型可能出现的幻觉现象，即生成合理但错误或无意义的信息。这些问题对模型在敏感领域（如医疗保健）的部署构成挑战，因为这些领域对准确性至关重要。

常用场景

经典使用场景

CollectiveSFT数据集在医疗领域中被广泛用于监督微调（SFT）大型语言模型（LLMs），以提高它们在中文医疗基准测试中的性能。该数据集通过集成多种类型的指令内容，包括现实世界的对话重建、医疗论坛的咨询记录等，解决了传统数据集中指令多样性和分布性不足的问题。这种多样化的数据集能够优化模型性能，使得即使是较小的模型也能够在特定任务上取得与大型模型相当的成绩。

解决学术问题

CollectiveSFT数据集解决了医疗领域LLMs在指令微调中存在的多样性和分布性问题。通过整合多种指令类型和相关领域，该数据集能够增强模型在不同医疗场景下的泛化能力和性能。此外，该数据集还揭示了数据集质量和多样性在微调过程中的重要性，为医疗领域LLMs的发展提供了重要的参考。

实际应用

CollectiveSFT数据集在实际应用中可以用于训练和微调医疗领域的LLMs，以提高它们在特定任务上的性能。该数据集的多样性和分布性使得模型能够更好地理解和执行任务，从而提高医疗咨询和诊断的准确性和效率。此外，该数据集还可以用于开发更高效、资源节约的模型，以降低医疗领域的成本。

数据集最近研究