PMC_OA_Subset
收藏魔搭社区2025-11-26 更新2025-11-03 收录
下载链接:
https://modelscope.cn/datasets/wangrongsheng/PMC_OA_Subset
下载链接
链接失效反馈官方服务:
资源简介:
访问:[https://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/](https://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/)
# 🧬 PubMed Central (PMC) Open Access 文件夹结构说明
## 📁 目录结构
### `historical_ocr/`
* **用途**:存放早期开放获取文章的扫描版文字识别(OCR)结果。
* **内容特点**:多为旧文献的数字化版本,文字识别质量可能较低。
* **更新频率**:极低,仅用于历史数据存档。
---
### `manuscript/`
* **用途**:收录作者通过 NIHMS 系统提交的 **作者稿件版本(Author Manuscripts)**。
* **说明**:与正式发表版不同,可能未经过出版社排版。
* **适用场景**:政策要求提交的资助研究成果。
---
### `oa_bulk/`
* **用途**:PMC 早期批量开放获取数据包(已被 `oa_package/` 取代)。
* **内容**:包含旧格式的 XML 和 PDF 文件。
* **状态**:**已弃用**,不再更新。
---
### `oa_package/`
* **用途**:**主要的开放获取文章包目录**。
* **内容**:每篇文章为一个压缩包(ZIP/TAR),内含:
* 结构化全文 XML
* PDF 文件
* 图片和附录
* **推荐用途**:文本挖掘、机器学习语料构建。
---
### `oa_pdf/`
* **用途**:仅包含 PDF 格式的开放获取文章。
* **更新频率**:极低,自 2016 年后基本不再维护。
* **说明**:建议使用 `oa_package/` 以获取完整内容。
---
## 📄 文件说明
### `PMC-ids.csv.gz` / `_PMC-ids.csv.gz`
* **作用**:PMC 文章编号与 PubMed ID、DOI 的对应表。
* **字段示例**:
```
pmcid, pmid, doi, release_date, journal_title
PMC1234567, 9876543, 10.1000/j.jmb.2023.01.001, 2025-10-14, Journal of Molecular Biology
```
* **更新频率**:每日自动更新;带 `_` 前缀的是前一天的版本。
---
### `oa_file_list.csv` / `oa_file_list.txt`
* **作用**:**全部开放获取(OA)文章的清单索引**。
* **主要字段**:
* `file_name` — 文件名(如 ZIP 包路径)
* `pmcid` — PMC ID
* `license_type` — 许可类型(如 CC-BY)
* `journal_title` — 期刊名
* `update_date` — 更新时间
* **格式区别**:
* `.csv`:机器可读格式,便于程序处理。
* `.txt`:文本格式,便于人工浏览。
---
### `oa_comm_use_file_list.csv` / `.txt`
* **作用**:**允许商业使用(Commercial Use Allowed)** 的 OA 文件清单。
* **说明**:适合企业研究、AI 模型训练等商用项目。
---
### `oa_non_comm_use_pdf.csv` / `.txt`
* **作用**:仅允许 **非商业使用(Non-Commercial Use)** 的 OA PDF 文件索引。
* **许可类型**:通常为 “CC-BY-NC” 等限制性许可。
---
### `readme.txt`
* **作用**:官方元数据与使用说明文件。
* **内容**:
* 字段定义说明
* 文件更新频率
* 使用与许可条款
---
## 📆 更新时间说明
* 数据每日凌晨更新。
* 时间戳格式示例:`2025-10-15 05:44`。
* 各文件更新时间相互独立,通常以 `.csv` 为最新。
---
## 💡 使用建议
| 目标 | 推荐文件 |
| -------------------- | --------------------------- |
| 获取全部 OA 文章列表 | `oa_file_list.csv` |
| 获取可商用的 OA 文章 | `oa_comm_use_file_list.csv` |
| 获取非商用 OA PDF | `oa_non_comm_use_pdf.csv` |
| 建立 PMC ↔ PMID/DOI 映射 | `PMC-ids.csv.gz` |
| 下载结构化 XML + PDF | `oa_package/` |
访问链接:[https://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/](https://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/)
# 🧬 PubMed Central(PMC)开放获取文件夹结构说明
## 📁 目录结构
### `historical_ocr/`
* **用途**:存储早期开放获取文章的扫描版光学字符识别(Optical Character Recognition)结果。
* **内容特点**:多为老旧文献的数字化版本,文字识别质量或存在不足。
* **更新频率**:更新频率极低,仅用于历史数据存档。
---
### `manuscript/`
* **用途**:收录研究者通过NIHMS系统提交的**作者稿件版本(Author Manuscripts)**。
* **说明**:与正式发表版本存在差异,可能未经过出版社排版处理。
* **适用场景**:适用于政策要求提交的受资助研究成果。
---
### `oa_bulk/`
* **用途**:PMC早期批量开放获取数据包目录,现已被`oa_package/`取代。
* **内容**:包含旧格式的XML与PDF文件。
* **状态**:已弃用,不再进行更新维护。
---
### `oa_package/`
* **用途**:**核心开放获取文章包目录**。
* **内容**:每篇文章对应一个压缩包(ZIP/TAR格式),内含:
* 结构化全文XML文件
* PDF文档
* 图片及附录材料
* **推荐用途**:推荐用于文本挖掘、机器学习语料库构建。
---
### `oa_pdf/`
* **用途**:仅收录PDF格式的开放获取文章。
* **更新频率**:更新频率极低,2016年之后基本停止维护。
* **说明**:建议优先使用`oa_package/`以获取完整内容。
---
## 📄 文件说明
### `PMC-ids.csv.gz` / `_PMC-ids.csv.gz`
* **作用**:提供PMC文章编号与PubMed ID、DOI的对应映射关系。
* **字段示例**:
pmcid, pmid, doi, release_date, journal_title
PMC1234567, 9876543, 10.1000/j.jmb.2023.01.001, 2025-10-14, Journal of Molecular Biology
* **更新频率**:每日自动更新;带有下划线前缀的文件为前一日的备份版本。
---
### `oa_file_list.csv` / `oa_file_list.txt`
* **作用**:**全部开放获取(OA)文章的完整清单索引**。
* **主要字段**:
* `file_name` — 文件名(如ZIP包路径)
* `pmcid` — PMC文章编号
* `license_type` — 许可类型(如CC-BY)
* `journal_title` — 期刊名称
* `update_date` — 更新时间
* **格式区别**:
* `.csv`:机器可读格式,便于程序自动化处理。
* `.txt`:纯文本格式,便于人工浏览查阅。
---
### `oa_comm_use_file_list.csv` / `.txt`
* **作用**:**允许商业使用(Commercial Use Allowed)的开放获取文件清单**。
* **说明**:适用于企业研究、大语言模型训练等商用项目。
---
### `oa_non_comm_use_pdf.csv` / `.txt`
* **作用**:仅允许**非商业使用(Non-Commercial Use)**的开放获取PDF文件索引。
* **许可类型**:通常采用CC-BY-NC等限制性许可协议。
---
### `readme.txt`
* **作用**:提供官方元数据与使用指南。
* **内容**:
* 字段定义说明
* 文件更新频率
* 使用与许可条款
---
## 📆 更新时间说明
* 数据每日凌晨进行更新。
* 时间戳格式示例:`2025-10-15 05:44`。
* 各文件更新时间相互独立,通常以.csv格式文件为最新版本。
---
## 💡 使用建议
| 目标场景 | 推荐文件 |
| -------------------------- | ------------------------------- |
| 获取全部开放获取文章列表 | `oa_file_list.csv` |
| 获取可商用的开放获取文章 | `oa_comm_use_file_list.csv` |
| 获取非商用开放获取PDF文件 | `oa_non_comm_use_pdf.csv` |
| 建立PMC与PMID/DOI的映射关系 | `PMC-ids.csv.gz` |
| 下载结构化XML与完整PDF文件 | `oa_package/` |
提供机构:
maas
创建时间:
2025-10-15



