STXBP1_PubMed_Central_Multimodal_Dataset
收藏STXBP1 PubMed Central 多模态数据集概述
数据集基本信息
- 数据集名称:STXBP1 PubMed Central Multimodal Dataset
- 发布者:SkyWhal3
- 发布日期:2025年6月
- 许可证:cc-by-4.0
- 语言:英语 (en)
- 数据规模:约52 GB
- 规模类别:10K<n<100K
核心内容与目的
这是一个全面的多模态数据集,包含来自PubMed Central (PMC) 的约31,500篇科学文章和超过175,000张图表和图像。该数据集将全文文章与其相关的科学图表配对,使其成为STXBP1和基因治疗研究领域最完整的公开可用多模态资源之一。
多模态的重要性
科学理解通常依赖于视觉数据(如蛋白质结构、实验结果、通路图、显微镜图像)。该数据集保留了文章文本与图表之间的关联,可用于:
- 科学内容的视觉-语言模型训练
- 科学图像理解的图表-标题学习
- 能够同时对文本和图像进行推理的多模态RAG系统
- 自动化科学图表分析
关于STXBP1
STXBP1(也称为Munc18-1)编码一种对神经递质释放至关重要的蛋白质。其突变会导致STXBP1脑病,这是一种罕见的神经系统疾病(约每30,000名新生儿中有一例),其特征是早发性癫痫、发育迟缓和运动障碍。
数据集统计
| 指标 | 数量 |
|---|---|
| 文章总数 | 31,585 |
| 包含图像的文章 | 30,139 (95.4%) |
| 图像总数 | 175,404 |
| 每篇文章平均图像数 | 5.5 |
| 文本中的图像引用数 | 3,253,705 |
| 图像-文本匹配率 | 100.00% |
数据集结构
stxbp1-pubmed-multimodal/ ├── multimodal_data/ # 包含图像引用的文章JSON文件 │ ├── PMC10000387_multimodal.json │ ├── PMC10002385_multimodal.json │ └── ... (31,585个文件) ├── images/ # 所有图表图像 │ ├── PMC10000387-Fig1.png │ ├── PMC10000387-Fig2.png │ └── ... (175,404个文件) ├── training_llava.json # LLaVA格式训练数据 ├── training_conversational.json # 对话格式训练数据 ├── training_simple.json # 简单文本格式 └── README.md
数据格式
多模态JSON结构
每个文章JSON文件包含: json { "pmc_id": "PMC24456", "title": "文章标题...", "abstract": "摘要文本...", "main_text": "包含<image>PMC24456-F1.png</image>等内联引用的全文...", "images": ["PMC24456-F1.png", "PMC24456-F2.png"], "image_mapping": {"Figure 1": "PMC24456-F1.png", "Fig 1": "PMC24456-F1.png", "F1": "PMC24456-F1.png"}, "metadata": { "authors": ["作者一", "作者二"], "journal": "期刊名称", "doi": "10.xxxx/xxxxx", "pmid": "12345678", "publication_date": "2024 Jan 15", "stxbp1_count": 5, "munc18_count": 2 } }
预格式化训练文件
包含可直接使用的训练文件:
- LLaVA格式 (
training_llava.json):用于视觉-语言模型(LLaVA, BLIP-2等)。 - 对话格式 (
training_conversational.json):用于聊天模型(Llama, Mistral等)。 - 简单格式 (
training_simple.json):用于基础LLM训练或嵌入。
数据质量
图像-文本对齐审核
| 检查项 | 结果 |
|---|---|
| 文本中的图像引用总数 | 3,253,824 |
| 成功匹配到文件的数量 | 3,253,705 |
| 未匹配的引用数 | 119 (已移除) |
| 匹配率 | 99.996% |
筛选建议
| 筛选条件 | 描述 | 用例 |
|---|---|---|
stxbp1_count >= 1 |
至少提及STXBP1一次 | 一般STXBP1研究 |
stxbp1_count >= 5 |
大量讨论STXBP1 | 核心STXBP1论文 |
munc18_count >= 1 |
使用Munc18命名法 | 早期文献 |
stxbp1_count == 0 AND munc18_count == 0 |
无直接提及 | CRISPR方法学论文 |
局限性
本数据集包含的内容
- ✅ 带有内联图像引用的完整文章文本
- ✅ 超过175,000张科学图表(PNG格式)
- ✅ 结构化的图像到文本映射
- ✅ 预格式化训练文件(LLaVA、对话、简单格式)
- ✅ 丰富的元数据(作者、DOI、期刊、日期)
- ✅ 相关性评分(STXBP1/Munc18提及次数)
本数据集不包含的内容
- ❌ 补充数据文件(Excel、原始数据等)
- ❌ 视频内容(部分文章可能引用视频)
- ❌ 交互式图表(3D查看器等)
- ❌ 表格结构(表格已线性化为文本)
- ❌ LaTeX公式(已扁平化为文本)
图像注意事项
- 所有图像均为PNG格式(从原始TIF/JPG等转换而来)
- 一些复杂的多面板图表可能是单个图像
- 图表质量因来源期刊而异
- 文本中的内联
<image>标签标记了图表出现的位置
使用条款与伦理
- 所有文章均来自PMC开放获取子集,遵循各种开放许可证。
- 本数据集仅用于研究和教育目的。
- 使用特定发现时应引用原始文章。
- 本数据集不应取代专业的医疗建议。
- 病例研究中的患者数据已由原作者进行去标识化处理。
相关数据集
| 数据集 | 描述 |
|---|---|
| SkyWhal3/stxbp1-pubmed-central-fulltext | 纯文本版本(1.3 GB)- 下载速度更快 |
引用方式
bibtex @dataset{stxbp1_pubmed_multimodal_2025, title={STXBP1 PubMed Central Multimodal Dataset}, author={SkyWhal3}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/SkyWhal3/stxbp1-pubmed-multimodal}, note={31,585 articles with 175,404 scientific figures} }




