Bio-Plot Copilot Dataset

github2026-04-23 更新2026-04-24 收录

下载链接：

https://github.com/galaxy-worlder/Bio_Plot_Copilot_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本项目是一个专为生物信息学与结构生物学数据可视化打造的高质量指令微调数据集仓库。通过持续收集顶级期刊 (CNS) 级别的绘图代码（如复杂多层热图、双样本 Logo 图、带显著性检验的差异柱状图等），并将其转化为标准的 Alpaca JSON 格式，本数据集旨在微调开源大语言模型 (如 Qwen2.5)，打造一个精通 R 语言生信绘图的“专属私有化代码副驾驶 (Copilot)”。

This project is a high-quality instruction-tuning dataset repository specifically developed for data visualization in bioinformatics and structural biology. By continuously collecting plotting codes at the level of top-tier journals (CNS), such as complex multi-layered heatmaps, two-sample Logo plots, differential bar plots with significance tests, and more, and converting them into the standard Alpaca JSON format, this dataset aims to fine-tune open-source large language models (LLMs, e.g., Qwen2.5) to create an "exclusive private code Copilot" proficient in R-language bioinformatics plotting.

创建时间：

2026-04-23

原始信息汇总

📌 数据集概述

Bio-Plot Copilot Dataset 是一个专为生物信息学与结构生物学数据可视化设计的高质量指令微调数据集，旨在微调开源大语言模型（如 Qwen2.5），打造精通 R 语言生信绘图的“专属私有化代码副驾驶”。

📂 仓库结构

采用“本地模块化语料库 + 自动化脚本打包”的双层管理架构，主要目录与文件包括：

01_Heatmaps/：热图类代码标本
02_Scatter_Plots/：散点图/火山图代码标本
03_Structural_Biology/：结构生物学特征可视化
build_dataset.py：核心打包脚本
bio_copilot_dataset.json：自动生成的 Alpaca 格式微调文件
.gitignore：严格防范大文件/隐私数据泄露

🚀 工作流

采用“三步曲”数据累积工作流：

存入标本：在对应分类目录下新建文件夹，放入“核心三件套”：
- meta.md：用自然语言描述绘图需求（作为 Instruction）
- code.R：高质量、可运行的 R 语言绘图脚本（作为 Output）
- mock_data.csv：极小型的脱敏测试数据表头（作为 Input 上下文）
一键炼丹准备：运行 python build_dataset.py，自动遍历所有目录，生成 LLaMA-Factory 可直接读取的 bio_copilot_dataset.json
微调训练：将生成的 JSON 文件挂载至 LLaMA-Factory 环境，启动 LoRA 微调

💡 数据集样例

自动生成的 Alpaca 数据格式示例（JSON 格式）： json [ { "instruction": "作为生物信息学代码助手，请编写一个 R 语言函数，使用 ggplot2 绘制带显著性标注的靶点富集差异柱状图。", "input": "输入数据格式如下 (CSV 预览): position,amino_acid,freq_diff,p_value,sig_label 6,Y,0.15,0.01,** ...", "output": "r library(ggplot2)... " } ]

🛡️ 注意事项

严禁上传真实测序数据或未经脱敏的临床数据
仓库的 .gitignore 已配置拦截所有 .csv、.rds 等大型文件，仅允许名为 mock_data 的微型样例数据入库

搜集汇总

数据集介绍

构建方式

Bio-Plot Copilot Dataset构建于生物信息学与结构生物学数据可视化的实际需求之上，旨在为开源大语言模型提供高质量的指令微调语料。数据集的构建采用模块化语料库与自动化打包脚本相结合的双层架构：首先，在分类目录下针对特定绘图任务存入“核心三件套”，包括以自然语言描述绘图需求的meta.md、可运行的R语言绘图脚本code.R以及脱敏的测试数据mock_data.csv；随后，通过运行根目录下的build_dataset.py脚本，自动遍历所有目录并将这些标本组装为标准Alpaca JSON格式的微调文件bio_copilot_dataset.json，从而形成可直接用于LLaMA-Factory微调的数据集。

特点

该数据集的核心特色在于其专注于顶尖期刊级别的生物信息学可视化代码，涵盖复杂多层热图、双样本Logo图、带显著性检验的差异柱状图等高级绘图类型。数据集以标准Alpaca JSON格式存储，每条样本均包含明确的指令（instruction）、输入上下文（input）和期望输出（output），便于大语言模型理解绘图需求并生成对应的R代码。此外，数据集采用本地模块化管理，通过严格区分真实数据与脱敏样例数据，兼顾了数据隐私与可用性，为构建专属的私有化生物信息学代码副驾驶奠定了坚实基础。

使用方法

使用该数据集进行模型微调时，用户需先通过执行build_dataset.py脚本生成统一的bio_copilot_dataset.json文件。随后，将此JSON文件挂载至LLaMA-Factory微调框架中，启动LoRA或全参数微调训练，从而将高水平的生信制图知识注入开源大语言模型。用户也可直接查阅各分类目录下的原始标本，理解具体绘图任务的描述、代码实现与数据格式，以便在微调后通过自然语言指令调用模型生成相应的R语言可视化脚本，实现高效、精准的生物信息学科学绘图。

背景与挑战

背景概述

在生物信息学与结构生物学领域，数据可视化是揭示分子机制与生物规律的核心手段。然而，顶级期刊中如《Cell》《Nature》《Science》所刊载的复杂图表，其背后往往依赖高度定制化的R语言绘图代码，掌握门槛极高。为降低这一壁垒，Bio-Plot Copilot Dataset应运而生。该数据集创建于2024年，由专注于生物计算与可视化工具开发的研究团队构建，旨在通过收集CNS级别绘图代码（如多层热图、双样本Logo图、带显著性检验的差异柱状图），并将其转化为标准Alpaca JSON格式，为微调开源大语言模型（如Qwen2.5）提供高质量指令数据。其核心研究问题是：如何利用指令微调使模型掌握生物医学绘图的专业代码生成能力，从而打造面向科研人员的私有化代码副驾驶。该数据集的出现，为领域内大语言模型的应用开辟了新方向，对自动化科研辅助工具的发展具有潜在推动作用。

当前挑战

当前数据集面临多重挑战。在领域问题层面，生物信息学绘图需求高度专业化，图表类型多样且伴随时效性更新，现有数据集难以覆盖所有新兴可视化技术（如单细胞组学图谱），导致模型泛化能力受限。在构建过程中，主要挑战包括：第一，代码标本的收集与筛选需严格遵循学术规范，从顶级期刊中提取可复现代码面临版权与格式差异问题；第二，数据脱敏与隐私保护要求严苛，真实测序数据或临床信息严禁入库，而小型mock_data需保留关键特征以支撑指令与输出的一致性；第三，脚本自动打包虽提升效率，但meta.md中自然语言描述的歧义性易导致指令与代码匹配失准，影响微调数据质量。

常用场景

经典使用场景

在生物信息学与结构生物学领域，数据可视化是揭示分子机制与生物规律的核心手段。Bio-Plot Copilot Dataset专为培养大语言模型在生命科学绘图中的代码生成能力而设计，其经典使用场景包括从自然语言描述自动生成符合CNS级别期刊标准的复杂多层热图、双样本Logo图以及带显著性检验的差异柱状图等。研究人员仅需以文本形式描述绘图需求并提供模拟数据，模型即可输出可执行的R语言代码，极大降低了专业绘图的编程门槛。

衍生相关工作

基于Bio-Plot Copilot Dataset，研究者已经衍生出多项开创性工作。一方面，该数据集推动了面向生物信息学的领域专用大模型微调策略发展，如结合LLaMA-Factory框架的LoRA高效微调方案，成为后续同类数据集构建的基准范式。另一方面，受其启发，出现了专门针对单细胞测序、蛋白质结构预测等子领域的绘图数据集，以及将R与Python生态融合的跨语言代码生成模型，进一步拓展了AI辅助科研可视化的边界。

数据集最近研究