five

PMC_OA_Subset

收藏
魔搭社区2025-11-26 更新2025-11-03 收录
下载链接:
https://modelscope.cn/datasets/wangrongsheng/PMC_OA_Subset
下载链接
链接失效反馈
官方服务:
资源简介:
访问:[https://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/](https://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/) # 🧬 PubMed Central (PMC) Open Access 文件夹结构说明 ## 📁 目录结构 ### `historical_ocr/` * **用途**:存放早期开放获取文章的扫描版文字识别(OCR)结果。 * **内容特点**:多为旧文献的数字化版本,文字识别质量可能较低。 * **更新频率**:极低,仅用于历史数据存档。 --- ### `manuscript/` * **用途**:收录作者通过 NIHMS 系统提交的 **作者稿件版本(Author Manuscripts)**。 * **说明**:与正式发表版不同,可能未经过出版社排版。 * **适用场景**:政策要求提交的资助研究成果。 --- ### `oa_bulk/` * **用途**:PMC 早期批量开放获取数据包(已被 `oa_package/` 取代)。 * **内容**:包含旧格式的 XML 和 PDF 文件。 * **状态**:**已弃用**,不再更新。 --- ### `oa_package/` * **用途**:**主要的开放获取文章包目录**。 * **内容**:每篇文章为一个压缩包(ZIP/TAR),内含: * 结构化全文 XML * PDF 文件 * 图片和附录 * **推荐用途**:文本挖掘、机器学习语料构建。 --- ### `oa_pdf/` * **用途**:仅包含 PDF 格式的开放获取文章。 * **更新频率**:极低,自 2016 年后基本不再维护。 * **说明**:建议使用 `oa_package/` 以获取完整内容。 --- ## 📄 文件说明 ### `PMC-ids.csv.gz` / `_PMC-ids.csv.gz` * **作用**:PMC 文章编号与 PubMed ID、DOI 的对应表。 * **字段示例**: ``` pmcid, pmid, doi, release_date, journal_title PMC1234567, 9876543, 10.1000/j.jmb.2023.01.001, 2025-10-14, Journal of Molecular Biology ``` * **更新频率**:每日自动更新;带 `_` 前缀的是前一天的版本。 --- ### `oa_file_list.csv` / `oa_file_list.txt` * **作用**:**全部开放获取(OA)文章的清单索引**。 * **主要字段**: * `file_name` — 文件名(如 ZIP 包路径) * `pmcid` — PMC ID * `license_type` — 许可类型(如 CC-BY) * `journal_title` — 期刊名 * `update_date` — 更新时间 * **格式区别**: * `.csv`:机器可读格式,便于程序处理。 * `.txt`:文本格式,便于人工浏览。 --- ### `oa_comm_use_file_list.csv` / `.txt` * **作用**:**允许商业使用(Commercial Use Allowed)** 的 OA 文件清单。 * **说明**:适合企业研究、AI 模型训练等商用项目。 --- ### `oa_non_comm_use_pdf.csv` / `.txt` * **作用**:仅允许 **非商业使用(Non-Commercial Use)** 的 OA PDF 文件索引。 * **许可类型**:通常为 “CC-BY-NC” 等限制性许可。 --- ### `readme.txt` * **作用**:官方元数据与使用说明文件。 * **内容**: * 字段定义说明 * 文件更新频率 * 使用与许可条款 --- ## 📆 更新时间说明 * 数据每日凌晨更新。 * 时间戳格式示例:`2025-10-15 05:44`。 * 各文件更新时间相互独立,通常以 `.csv` 为最新。 --- ## 💡 使用建议 | 目标 | 推荐文件 | | -------------------- | --------------------------- | | 获取全部 OA 文章列表 | `oa_file_list.csv` | | 获取可商用的 OA 文章 | `oa_comm_use_file_list.csv` | | 获取非商用 OA PDF | `oa_non_comm_use_pdf.csv` | | 建立 PMC ↔ PMID/DOI 映射 | `PMC-ids.csv.gz` | | 下载结构化 XML + PDF | `oa_package/` |

访问链接:[https://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/](https://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/) # 🧬 PubMed Central(PMC)开放获取文件夹结构说明 ## 📁 目录结构 ### `historical_ocr/` * **用途**:存储早期开放获取文章的扫描版光学字符识别(Optical Character Recognition)结果。 * **内容特点**:多为老旧文献的数字化版本,文字识别质量或存在不足。 * **更新频率**:更新频率极低,仅用于历史数据存档。 --- ### `manuscript/` * **用途**:收录研究者通过NIHMS系统提交的**作者稿件版本(Author Manuscripts)**。 * **说明**:与正式发表版本存在差异,可能未经过出版社排版处理。 * **适用场景**:适用于政策要求提交的受资助研究成果。 --- ### `oa_bulk/` * **用途**:PMC早期批量开放获取数据包目录,现已被`oa_package/`取代。 * **内容**:包含旧格式的XML与PDF文件。 * **状态**:已弃用,不再进行更新维护。 --- ### `oa_package/` * **用途**:**核心开放获取文章包目录**。 * **内容**:每篇文章对应一个压缩包(ZIP/TAR格式),内含: * 结构化全文XML文件 * PDF文档 * 图片及附录材料 * **推荐用途**:推荐用于文本挖掘、机器学习语料库构建。 --- ### `oa_pdf/` * **用途**:仅收录PDF格式的开放获取文章。 * **更新频率**:更新频率极低,2016年之后基本停止维护。 * **说明**:建议优先使用`oa_package/`以获取完整内容。 --- ## 📄 文件说明 ### `PMC-ids.csv.gz` / `_PMC-ids.csv.gz` * **作用**:提供PMC文章编号与PubMed ID、DOI的对应映射关系。 * **字段示例**: pmcid, pmid, doi, release_date, journal_title PMC1234567, 9876543, 10.1000/j.jmb.2023.01.001, 2025-10-14, Journal of Molecular Biology * **更新频率**:每日自动更新;带有下划线前缀的文件为前一日的备份版本。 --- ### `oa_file_list.csv` / `oa_file_list.txt` * **作用**:**全部开放获取(OA)文章的完整清单索引**。 * **主要字段**: * `file_name` — 文件名(如ZIP包路径) * `pmcid` — PMC文章编号 * `license_type` — 许可类型(如CC-BY) * `journal_title` — 期刊名称 * `update_date` — 更新时间 * **格式区别**: * `.csv`:机器可读格式,便于程序自动化处理。 * `.txt`:纯文本格式,便于人工浏览查阅。 --- ### `oa_comm_use_file_list.csv` / `.txt` * **作用**:**允许商业使用(Commercial Use Allowed)的开放获取文件清单**。 * **说明**:适用于企业研究、大语言模型训练等商用项目。 --- ### `oa_non_comm_use_pdf.csv` / `.txt` * **作用**:仅允许**非商业使用(Non-Commercial Use)**的开放获取PDF文件索引。 * **许可类型**:通常采用CC-BY-NC等限制性许可协议。 --- ### `readme.txt` * **作用**:提供官方元数据与使用指南。 * **内容**: * 字段定义说明 * 文件更新频率 * 使用与许可条款 --- ## 📆 更新时间说明 * 数据每日凌晨进行更新。 * 时间戳格式示例:`2025-10-15 05:44`。 * 各文件更新时间相互独立,通常以.csv格式文件为最新版本。 --- ## 💡 使用建议 | 目标场景 | 推荐文件 | | -------------------------- | ------------------------------- | | 获取全部开放获取文章列表 | `oa_file_list.csv` | | 获取可商用的开放获取文章 | `oa_comm_use_file_list.csv` | | 获取非商用开放获取PDF文件 | `oa_non_comm_use_pdf.csv` | | 建立PMC与PMID/DOI的映射关系 | `PMC-ids.csv.gz` | | 下载结构化XML与完整PDF文件 | `oa_package/` |
提供机构:
maas
创建时间:
2025-10-15
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作