introvoyz041/PubMed-Metadata
收藏Hugging Face2025-12-27 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/introvoyz041/PubMed-Metadata
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: PMID
dtype: uint64
- name: PMCID
dtype: large_string
- name: DOI
dtype: large_string
- name: Title
dtype: large_string
- name: Abstract
dtype: large_string
- name: Journal
dtype: large_string
- name: Year
dtype: int64
- name: ISSN
dtype: large_string
- name: eISSN
dtype: large_string
- name: PMC_OA
dtype: bool
- name: Journal License
dtype: large_string
- name: IS_OA
dtype: bool
splits:
- name: train
num_bytes: 42839676179
num_examples: 39043581
download_size: 22268836300
dataset_size: 42839676179
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
PubMed / PubMedCentral metadata I've collected. I produced this by downloading the baselines for PubMed / PubMedCentral from their FTP servers, yet some of the abstracts are strangely truncated. Not sure what is going on there.
IS_OA indicates if the paper is open access, and this was determined by using the data from https://doaj.org/. PMC_OA indicates if its in the PMC open access set.
数据集信息:
特征字段:
- 名称:PMID(PubMed识别号),数据类型:无符号64位整数
- 名称:PMCID(PubMed Central识别号),数据类型:大字符串
- 名称:DOI(数字对象标识符),数据类型:大字符串
- 名称:标题,数据类型:大字符串
- 名称:摘要,数据类型:大字符串
- 名称:期刊,数据类型:大字符串
- 名称:发表年份,数据类型:64位整数
- 名称:ISSN(国际标准连续出版物编号),数据类型:大字符串
- 名称:eISSN(电子国际标准连续出版物编号),数据类型:大字符串
- 名称:PMC_OA,数据类型:布尔型
- 名称:Journal License(期刊许可协议),数据类型:大字符串
- 名称:IS_OA,数据类型:布尔型
数据集划分:
- 划分名称:train(训练集),字节占用量:42839676179,样本总数:39043581
下载大小:22268836300
数据集总占用大小:42839676179
配置项:
- 配置名称:default(默认配置),数据文件:
- 划分:train(训练集),文件路径:data/train-*
本数据集为笔者收集的PubMed与PubMedCentral元数据。笔者通过从其FTP服务器下载PubMed及PubMedCentral的基准数据集构建了该数据集,但部分摘要存在异常截断的情况,目前尚未明确具体成因。
其中,IS_OA用于标识文章是否为开放获取,该判定依据来自https://doaj.org/ 的公开数据;PMC_OA用于标识文章是否隶属于PMC开放获取合集。
提供机构:
introvoyz041



