STXBP1_PubMed_Central_Multimodal_Dataset

Hugging Face2025-12-08 更新2025-12-09 收录

下载链接：

https://huggingface.co/datasets/SkyWhal3/STXBP1_PubMed_Central_Multimodal_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

STXBP1 PubMed Central多模态数据集是一个包含约31,500篇PubMed Central (PMC)科学文章的综合多模态集合，拥有超过175,000张图表和图像。该数据集将全文文章与其相关的科学图表配对，使其成为STXBP1和基因疗法研究中最完整的公开多模态资源之一。科学理解通常依赖于视觉数据——蛋白质结构、实验结果、通路图、显微镜图像等。该数据集保留了文章文本与图表之间的联系，支持科学内容的视觉语言模型训练、科学图像理解的图表到标题学习、能够推理文本和图像的多模态RAG系统以及自动化科学图表分析。STXBP1（也称为Munc18-1）编码一种对神经递质释放至关重要的蛋白质。突变会导致STXBP1脑病，这是一种罕见的神经系统疾病（约每30,000名新生儿中1例），其特征是早发性癫痫、发育迟缓和运动障碍。

The STXBP1 PubMed Central Multimodal Dataset is a comprehensive multimodal collection comprising approximately 31,500 scientific articles from PubMed Central (PMC), with over 175,000 charts and images. This dataset pairs full-text articles with their associated scientific figures, making it one of the most complete publicly available multimodal resources for STXBP1 and gene therapy research. Scientific understanding often relies on visual data, including protein structures, experimental results, pathway diagrams, microscopy images, and more. This dataset preserves the correspondence between article text and figures, supporting training of visual-language models for scientific content, figure-to-caption learning for scientific image understanding, multimodal retrieval-augmented generation (RAG) systems capable of reasoning over both text and images, and automated scientific figure analysis. STXBP1, also known as Munc18-1, encodes a protein critical for neurotransmitter release. Mutations in STXBP1 cause STXBP1 encephalopathy, a rare neurological disorder affecting approximately 1 in 30,000 newborns, characterized by early-onset epilepsy, developmental delays, and motor dysfunction.

创建时间：

2025-12-08

原始信息汇总

STXBP1 PubMed Central 多模态数据集概述

数据集基本信息

数据集名称：STXBP1 PubMed Central Multimodal Dataset
发布者：SkyWhal3
发布日期：2025年6月
许可证：cc-by-4.0
语言：英语 (en)
数据规模：约52 GB
规模类别：10K<n<100K

核心内容与目的

这是一个全面的多模态数据集，包含来自PubMed Central (PMC) 的约31,500篇科学文章和超过175,000张图表和图像。该数据集将全文文章与其相关的科学图表配对，使其成为STXBP1和基因治疗研究领域最完整的公开可用多模态资源之一。

多模态的重要性

科学理解通常依赖于视觉数据（如蛋白质结构、实验结果、通路图、显微镜图像）。该数据集保留了文章文本与图表之间的关联，可用于：

科学内容的视觉-语言模型训练
科学图像理解的图表-标题学习
能够同时对文本和图像进行推理的多模态RAG系统
自动化科学图表分析

关于STXBP1

STXBP1（也称为Munc18-1）编码一种对神经递质释放至关重要的蛋白质。其突变会导致STXBP1脑病，这是一种罕见的神经系统疾病（约每30,000名新生儿中有一例），其特征是早发性癫痫、发育迟缓和运动障碍。

数据集统计

指标	数量
文章总数	31,585
包含图像的文章	30,139 (95.4%)
图像总数	175,404
每篇文章平均图像数	5.5
文本中的图像引用数	3,253,705
图像-文本匹配率	100.00%

数据集结构

stxbp1-pubmed-multimodal/ ├── multimodal_data/ # 包含图像引用的文章JSON文件 │ ├── PMC10000387_multimodal.json │ ├── PMC10002385_multimodal.json │ └── ... (31,585个文件) ├── images/ # 所有图表图像 │ ├── PMC10000387-Fig1.png │ ├── PMC10000387-Fig2.png │ └── ... (175,404个文件) ├── training_llava.json # LLaVA格式训练数据 ├── training_conversational.json # 对话格式训练数据 ├── training_simple.json # 简单文本格式 └── README.md

数据格式

多模态JSON结构

每个文章JSON文件包含： json { "pmc_id": "PMC24456", "title": "文章标题...", "abstract": "摘要文本...", "main_text": "包含<image>PMC24456-F1.png</image>等内联引用的全文...", "images": ["PMC24456-F1.png", "PMC24456-F2.png"], "image_mapping": {"Figure 1": "PMC24456-F1.png", "Fig 1": "PMC24456-F1.png", "F1": "PMC24456-F1.png"}, "metadata": { "authors": ["作者一", "作者二"], "journal": "期刊名称", "doi": "10.xxxx/xxxxx", "pmid": "12345678", "publication_date": "2024 Jan 15", "stxbp1_count": 5, "munc18_count": 2 } }

预格式化训练文件

包含可直接使用的训练文件：

LLaVA格式 (training_llava.json)：用于视觉-语言模型（LLaVA, BLIP-2等）。
对话格式 (training_conversational.json)：用于聊天模型（Llama, Mistral等）。
简单格式 (training_simple.json)：用于基础LLM训练或嵌入。

数据质量

图像-文本对齐审核

检查项	结果
文本中的图像引用总数	3,253,824
成功匹配到文件的数量	3,253,705
未匹配的引用数	119 (已移除)
匹配率	99.996%

筛选建议

筛选条件	描述	用例
`stxbp1_count >= 1`	至少提及STXBP1一次	一般STXBP1研究
`stxbp1_count >= 5`	大量讨论STXBP1	核心STXBP1论文
`munc18_count >= 1`	使用Munc18命名法	早期文献
`stxbp1_count == 0 AND munc18_count == 0`	无直接提及	CRISPR方法学论文

局限性

本数据集包含的内容

✅ 带有内联图像引用的完整文章文本
✅ 超过175,000张科学图表（PNG格式）
✅ 结构化的图像到文本映射
✅ 预格式化训练文件（LLaVA、对话、简单格式）
✅ 丰富的元数据（作者、DOI、期刊、日期）
✅ 相关性评分（STXBP1/Munc18提及次数）

本数据集不包含的内容

❌ 补充数据文件（Excel、原始数据等）
❌ 视频内容（部分文章可能引用视频）
❌ 交互式图表（3D查看器等）
❌ 表格结构（表格已线性化为文本）
❌ LaTeX公式（已扁平化为文本）

图像注意事项

所有图像均为PNG格式（从原始TIF/JPG等转换而来）
一些复杂的多面板图表可能是单个图像
图表质量因来源期刊而异
文本中的内联<image>标签标记了图表出现的位置

使用条款与伦理

所有文章均来自PMC开放获取子集，遵循各种开放许可证。
本数据集仅用于研究和教育目的。
使用特定发现时应引用原始文章。
本数据集不应取代专业的医疗建议。
病例研究中的患者数据已由原作者进行去标识化处理。

引用方式

bibtex @dataset{stxbp1_pubmed_multimodal_2025, title={STXBP1 PubMed Central Multimodal Dataset}, author={SkyWhal3}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/SkyWhal3/stxbp1-pubmed-multimodal}, note={31,585 articles with 175,404 scientific figures} }

搜集汇总

数据集介绍

构建方式

在生物医学信息学领域，大规模多模态数据集的构建对于推动科学发现至关重要。STXBP1_PubMed_Central_Multimodal_Dataset的构建始于对PubMed Central开放获取子集的系统性检索，采用了涵盖STXBP家族蛋白、CRISPR基因编辑技术及相关疗法术语的复合搜索策略。通过自动化流程提取了约31,585篇学术文献的全文内容，并精准捕获了文中引用的175,404幅科学图像，确保了图像与文本引用的高精度对齐。数据经过严格的质量验证，移除了少量无法匹配的图像引用，最终形成了包含结构化JSON元数据、图像文件及多种预格式化训练文件的完整资源。

特点

该数据集的核心特征在于其卓越的多模态整合能力与领域特异性。它不仅提供了海量的全文文本与科学图像配对，更通过内联的图像标签实现了图文位置的精确映射，为视觉语言模型理解复杂的科学图示奠定了坚实基础。数据集聚焦于STXBP1相关神经疾病及基因治疗前沿，内置了基于STXBP1与Munc18提及次数的相关性评分，便于研究者快速筛选高价值文献。此外，其预置的LLaVA、对话式及简单文本三种训练格式，显著降低了多模态模型在专业科学领域微调的技术门槛。

使用方法

利用该数据集进行科学研究，可通过Hugging Face的`datasets`库直接加载，便捷地访问其多模态内容。研究者可依据元数据中的`stxbp1_count`等字段，高效过滤出与特定研究主题高度相关的文献子集。对于模型开发，预生成的`training_llava.json`等文件可直接用于主流视觉语言模型的微调，例如遵循LLaVA项目的标准流程进行训练。同时，用户也能通过本地文件系统加载JSON数据与对应的PNG图像，结合PIL等库进行自定义的图文关联分析与可视化探索。

背景与挑战

背景概述

在生物医学信息学与神经科学交叉领域，多模态数据融合正成为解析复杂疾病机制的关键途径。STXBP1_PubMed_Central_Multimodal_Dataset由STXBP1患者倡导社区成员于2025年创建，旨在整合PubMed Central开放获取子集中的科学文献与视觉数据。该数据集聚焦STXBP1基因及其编码蛋白Munc18-1，该蛋白突变可引发罕见神经发育障碍——STXBP1脑病，其特征包括早发性癫痫、发育迟滞与运动障碍。通过汇集约31,500篇学术论文及逾17.5万幅科学图像，该资源为基因治疗与CRISPR技术研究提供了图文关联的结构化基础，推动了视觉-语言模型在精准医学领域的应用。

当前挑战

该数据集致力于解决生物医学多模态理解的核心挑战：如何实现科学文本与复杂视觉数据（如蛋白质结构图、实验路径示意图）的语义对齐，以支持自动化文献挖掘与治疗靶点发现。构建过程中面临多重技术障碍，包括从异构PDF格式中精确提取并匹配图像与文本引用，确保超过325万处图像引用达到99.996%的匹配率；同时需处理科学图像的多样性与质量差异，如多面板复合图的完整性保留，以及将原始TIFF/JPEG格式统一转换为PNG的标准化流程。此外，数据需平衡STXBP1核心文献与CRISPR方法论论文的覆盖广度，避免罕见病研究中的样本偏差。

常用场景

经典使用场景

在神经科学和罕见病研究领域，STXBP1_PubMed_Central_Multimodal_Dataset 的经典应用场景在于训练多模态视觉语言模型。该数据集整合了约31,500篇科学文献的全文与超过175,000张相关图表，为模型提供了图文对齐的丰富语料。研究人员利用其预格式化的LLaVA训练文件，能够构建能够理解科学图像并生成对应文本描述的智能系统，从而推动科学文献的自动化解析与知识提取。

实际应用

在实际应用中，该数据集支撑了面向精准医疗的智能辅助系统开发。临床研究人员可利用其构建多模态检索增强生成系统，快速从海量文献中定位与特定基因突变或疗法相关的图文证据。例如，在评估CRISPR基因编辑对STXBP1突变的潜在疗效时，系统能自动关联相关实验图表与论述，为治疗方案设计提供数据驱动的决策支持，显著提升科研与临床实践的效率。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在多模态科学问答与文献挖掘工具。例如，基于其LLaVA格式训练的模型能够实现科学图表自动解说，辅助研究人员快速理解复杂实验结果。同时，该数据集也催生了针对罕见病领域的专用检索系统，这些系统通过结合文本语义与图像特征，实现了对基因疗法文献的深度语义索引与知识图谱构建，为后续转化医学研究奠定了数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集