drug-dev-sft-dataset

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/6shmqshy7q-dot/drug-dev-sft-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是一个专为药物研发领域大语言模型监督微调（SFT）而构建的中文数据集。它旨在涵盖从药物发现到上市后监测的完整药物研发流程知识，为模型提供该垂直领域的专业训练数据。数据集包含7174条高质量的问答对，总token数超过2065万。数据采用Alpaca JSON格式，每条数据由`instruction`（问题/指令）和`output`（回答）两个字段构成。数据内容覆盖了药物研发的15个核心专业领域，包括药物靶点发现与验证、药物化学与分子设计、药物分析方法、药物安全性评价、药物代谢与药代动力学、临床试验各阶段要点、国际多中心临床试验、药物注册申请流程、药物一致性评价、药物警戒与不良反应监测、药物联合治疗策略、创新药物研发案例、生物制品研发、中药现代化以及药物研发流程概述。数据通过DeepSeek-chat模型生成，并经过严格的人工审核抽样，质量评分达到4.5-5.0的优秀标准，审核保留率为100%，确保了数据的高质量和可靠性。该数据集适用于训练或微调面向药物研发专业任务的大语言模型。

This dataset is a Chinese dataset specifically constructed for supervised fine-tuning (SFT) of large language models in the drug research and development field. It aims to cover the complete drug R&D process knowledge from drug discovery to post-marketing surveillance, providing professional training data for models in this vertical domain. The dataset contains 7174 high-quality question-answer pairs, with a total token count exceeding 20.65 million. The data is in Alpaca JSON format, with each entry consisting of two fields: `instruction` (question/instruction) and `output` (answer). The content covers 15 core professional areas of drug R&D, including drug target discovery and validation, medicinal chemistry and molecular design, drug analysis methods, drug safety evaluation, drug metabolism and pharmacokinetics, key points of clinical trial phases, international multi-center clinical trials, drug registration application processes, drug consistency evaluation, pharmacovigilance and adverse reaction monitoring, drug combination therapy strategies, innovative drug R&D case studies, biological product development, modernization of traditional Chinese medicine, and an overview of the drug R&D process. The data was generated using the DeepSeek-chat model and underwent rigorous manual audit sampling, achieving an excellent quality score of 4.5-5.0, with an audit retention rate of 100%, ensuring high quality and reliability. This dataset is suitable for training or fine-tuning large language models for professional drug R&D tasks.

创建时间：

2026-05-19

搜集汇总

数据集介绍

构建方式

本数据集专为药物研发领域的大语言模型监督微调（SFT）而精心构建。其内容基于DeepSeek-chat模型生成，以Alpaca JSON格式组织，共包含7174条高质量问答对，覆盖从药物靶点发现到上市后监测的完整研发流程。数据构建过程中，严格遵循15个药物研发专业领域的知识体系，确保每条数据包含明确的指令与回答字段，总计达20,653,717个tokens，为模型提供丰富而精准的领域知识训练素材。

特点

该数据集的一大特色在于其广泛的领域覆盖与卓越的数据质量。它囊括药物化学、安全性评价、临床试验、注册申请等15个核心专业方向，全面反映药物研发链条的多元复杂性。经人工审核抽样评估，数据质量评分达到4.5至5.0的优秀标准，且审核保留率高达100%，充分保障了数据的一致性与可靠性，特别适用于专业大语言模型的深度微调训练。

使用方法

使用本数据集进行模型微调时，可借助HuggingFace的datasets库便捷加载。用户仅需通过一行代码即可将数据导入Python环境，例如使用load_dataset函数直接获取训练数据。数据集以标准化的指令-回答对形式呈现，适配常见的SFT训练流程，开发者可直接将其整合至微调框架中，用于提升模型在药物研发领域的专业问答与生成能力，无需额外预处理工作。

背景与挑战

背景概述

药物研发是典型的高知识壁垒、长周期、高风险领域，从靶点发现到上市后监测涉及十余个专业环节，亟需具备跨学科知识整合能力的智能工具。该数据集由研究者基于DeepSeek-chat生成，于2024年发布，旨在为药物研发大语言模型的监督微调（SFT）提供高质量语料。核心研究问题在于构建能够覆盖完整研发流程的专业知识问答对，以提升模型在药物化学、临床试验、注册审批等15个细分领域的应答准确性与领域语义理解能力。数据集包含7174条指令-回答对，总token数逾2000万，其构建填补了中文药物研发领域精细标注指令数据的空白，对加速AI辅助药物发现、降低研发信息检索成本、提升跨环节协同效率具有显著推动作用。

当前挑战

该数据集在解决领域问题方面面临两大核心挑战：一是药物研发知识的强专业性与动态演进性，要求模型在分子设计、药代、警戒等子领域具备精准推理与事实一致性能力，现有通用大模型常因领域术语歧义或知识更新滞后产生误导性输出；二是研发流程中因果链长且涉及多模态数据（如分子结构、临床方案），单靠文本指令难以覆盖情境化推理需求，易导致模型在罕见或组合性问题上表现不佳。在构建过程中，挑战集中体现于：完全依赖DeepSeek-chat生成7174条高质量问答对，需人工审核确保专业准确性，实测保留率100%但仍存在隐式错误；15个子领域间知识密度不均，部分环节（如药物设计）缺乏规模化自洽数据，易引发生成偏见；此外，SFT微调对指令多样性与任务覆盖度要求高，当前数据集在开放性、逆向推理类问题的系统性上仍有扩展空间。

常用场景

经典使用场景

在药物研发的浩瀚征程中，从靶点发现到药物上市的每一个环节都承载着科学探索的艰深使命。该数据集最为经典的使用场景，是针对药物研发垂直领域的大语言模型监督微调（SFT），通过涵盖十五个专业子领域的七千余条高质量问答对，使基座模型能够精确掌握药物化学、临床试验设计、注册申报等复杂知识，从而在药物研发问答、知识检索及辅助决策中展现专业级的表现。

衍生相关工作

基于该数据集在药物研发领域的深耕，衍生出了一系列富有影响力的学术成果与技术实践。研究人员以此为基础开发出专注于新药靶点发现与分子设计的专业对话系统，构建了融合药物-靶点互作图谱与临床试验数据库的增强检索框架，并催生了面向药品注册流程自动化的规则引擎与风险预测模型，这些工作共同丰富了药物研发智能化工具链的生态体系。

数据集最近研究