ChiMed 2.0

Name: ChiMed 2.0
Creator: 中国科学院大学
Published: 2025-07-21 14:23:16
License: 暂无描述

arXiv2025-07-21 更新2025-07-23 收录

下载链接：

https://github.com/synlp/ChiMed-2.0

下载链接

链接失效反馈

官方服务：

资源简介：

ChiMed 2.0 是一个大规模的中文医疗数据集，涵盖了从预训练到监督微调再到强化学习从人类反馈（RLHF）的全过程。该数据集包含了 2.044 亿中文字符，包括传统中医药经典和现代一般医疗数据，其中包含 16.48 万份文档用于预训练，35.16 万个问答对用于监督微调（SFT），以及 4.17 万个偏好数据元组用于 RLHF。数据集的创建过程包括从多个权威和高流量的网站收集数据，以及进行多阶段的数据处理，包括去重、噪声过滤、敏感内容筛查、自动古代到现代的翻译、问答对生成和偏好数据构建。ChiMed 2.0 数据集旨在解决现有中文医疗语料库规模有限、领域覆盖面窄、缺乏多样化语料等问题，支持医疗领域的大语言模型训练，以及下游医疗 NLP 任务，如诊断辅助、临床决策支持和问答系统。

ChiMed 2.0 is a large-scale Chinese medical dataset covering the entire pipeline from pre-training, supervised fine-tuning (SFT) to reinforcement learning from human feedback (RLHF). This dataset contains 204.4 million Chinese characters, including traditional Chinese medical classics and modern general medical data. Specifically, it comprises 164,800 documents for pre-training, 351,600 question-answer pairs for supervised fine-tuning (SFT), and 41,700 preference data tuples for RLHF. The construction of ChiMed 2.0 involves collecting data from multiple authoritative and high-traffic websites, followed by multi-stage data processing steps including deduplication, noise filtering, sensitive content screening, automatic classical-to-modern Chinese translation, question-answer pair generation, and preference data construction. The ChiMed 2.0 dataset aims to address the limitations of existing Chinese medical corpora, such as limited scale, narrow domain coverage, and lack of diverse training data, to support the training of large language models (LLMs) in the medical domain, as well as downstream medical natural language processing (NLP) tasks such as diagnosis assistance, clinical decision support, and question-answering systems.

提供机构：

中国科学院大学

创建时间：

2025-07-21

搜集汇总

数据集介绍

构建方式

ChiMed 2.0数据集的构建采用了多阶段处理流程，涵盖基础与高级数据处理。基础处理阶段包括去重、HTML标签剔除、非文本字符清理及基于语言模型困惑度的质量过滤。高级处理阶段则通过大语言模型（LLM）进行敏感内容清洗、古文翻译、问答对生成及偏好数据构建。数据来源包括中医经典文献和现代医学在线平台，如权威中医知识库、在线医疗咨询平台等，最终形成包含2.044亿字符的大规模语料库。

特点

ChiMed 2.0的特点在于其全面覆盖中医与现代医学内容，支持预训练、监督微调（SFT）和基于人类反馈的强化学习（RLHF）。数据集包含16.48万份预训练文档、35.16万组问答对及4.17万条偏好数据，兼具专业术语多样性和临床场景丰富性。其独特之处在于通过LLM实现了古文到现代汉语的自动化翻译，并构建了高质量的偏好数据，为模型对齐人类偏好提供了可靠基础。

使用方法

该数据集适用于大语言模型的全周期训练。预训练阶段可直接使用原始医学文档；监督微调阶段需加载生成的问答对，以优化模型的任务响应能力；RLHF阶段则利用偏好数据优化模型输出。实验表明，基于ChiMed 2.0训练的模型在CMMLU和CEval等医学基准测试中表现显著提升。此外，数据集还可支持知识图谱构建、信息检索评估等下游应用，需通过标准化接口或工具包（如Hugging Face）调用。

背景与挑战

背景概述

ChiMed 2.0是由华盛顿大学和中国科学技术大学的研究团队于2025年提出的一个大规模中文医学数据集，旨在推动中文医学领域的大语言模型研究。该数据集扩展了早期的ChiMed数据集，涵盖了从中文医学在线平台收集的数据以及由大语言模型生成的内容。ChiMed 2.0包含2.044亿中文字符，覆盖了传统中医经典和现代通用医学数据，具体包括16.48万份预训练文档、35.16万对问答数据用于监督微调（SFT），以及4.17万组偏好数据用于人类反馈强化学习（RLHF）。该数据集的推出填补了中文医学数据在规模、领域覆盖和多样性方面的空白，为中文医学自然语言处理任务如诊断辅助、临床决策支持和问答系统等提供了重要资源。

当前挑战

ChiMed 2.0面临的挑战主要包括两方面：领域问题的挑战和构建过程的挑战。在领域问题方面，中文医学数据的稀缺性和专业性导致模型训练时需要处理复杂的医学术语、古汉语翻译以及临床场景的多样性。构建过程中的挑战则包括数据清洗与去噪、敏感内容识别与隐私保护、古汉语到现代汉语的自动翻译、高质量问答对生成以及偏好数据的构建。这些挑战需要通过多阶段的数据处理流程和先进的大语言模型技术来解决，以确保数据集的全面性和高质量。

常用场景

经典使用场景

ChiMed 2.0数据集在中文医疗领域的自然语言处理研究中具有广泛的应用价值，特别是在大型语言模型（LLM）的预训练、监督微调（SFT）和基于人类反馈的强化学习（RLHF）阶段。该数据集整合了传统中医经典和现代医学文献，为研究者提供了一个覆盖全面、内容丰富的语料库。在预训练阶段，模型可以通过大量医学文档学习专业术语和临床知识；在SFT阶段，生成的问答对能够帮助模型精准掌握医疗咨询的应答逻辑；而在RLHF阶段，偏好数据的引入进一步优化了模型输出的准确性和人性化程度。

衍生相关工作

该数据集已催生多项创新性研究，包括基于LoRA的高效微调方法在医疗LLM中的适配、中西医知识融合的跨领域推理框架等。典型代表如ChiMed-GPT模型，通过全流程训练在临床术语标准化、多轮问诊对话等任务中展现优越性能。相关技术已被拓展至医学知识图谱构建、流行病学趋势分析等衍生领域，形成以数据为驱动的中文医疗AI研究生态。

数据集最近研究