five

introvoyz041/PubMed-Metadata

收藏
Hugging Face2025-12-27 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/introvoyz041/PubMed-Metadata
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: PMID dtype: uint64 - name: PMCID dtype: large_string - name: DOI dtype: large_string - name: Title dtype: large_string - name: Abstract dtype: large_string - name: Journal dtype: large_string - name: Year dtype: int64 - name: ISSN dtype: large_string - name: eISSN dtype: large_string - name: PMC_OA dtype: bool - name: Journal License dtype: large_string - name: IS_OA dtype: bool splits: - name: train num_bytes: 42839676179 num_examples: 39043581 download_size: 22268836300 dataset_size: 42839676179 configs: - config_name: default data_files: - split: train path: data/train-* --- PubMed / PubMedCentral metadata I've collected. I produced this by downloading the baselines for PubMed / PubMedCentral from their FTP servers, yet some of the abstracts are strangely truncated. Not sure what is going on there. IS_OA indicates if the paper is open access, and this was determined by using the data from https://doaj.org/. PMC_OA indicates if its in the PMC open access set.

数据集信息: 特征字段: - 名称:PMID(PubMed识别号),数据类型:无符号64位整数 - 名称:PMCID(PubMed Central识别号),数据类型:大字符串 - 名称:DOI(数字对象标识符),数据类型:大字符串 - 名称:标题,数据类型:大字符串 - 名称:摘要,数据类型:大字符串 - 名称:期刊,数据类型:大字符串 - 名称:发表年份,数据类型:64位整数 - 名称:ISSN(国际标准连续出版物编号),数据类型:大字符串 - 名称:eISSN(电子国际标准连续出版物编号),数据类型:大字符串 - 名称:PMC_OA,数据类型:布尔型 - 名称:Journal License(期刊许可协议),数据类型:大字符串 - 名称:IS_OA,数据类型:布尔型 数据集划分: - 划分名称:train(训练集),字节占用量:42839676179,样本总数:39043581 下载大小:22268836300 数据集总占用大小:42839676179 配置项: - 配置名称:default(默认配置),数据文件: - 划分:train(训练集),文件路径:data/train-* 本数据集为笔者收集的PubMed与PubMedCentral元数据。笔者通过从其FTP服务器下载PubMed及PubMedCentral的基准数据集构建了该数据集,但部分摘要存在异常截断的情况,目前尚未明确具体成因。 其中,IS_OA用于标识文章是否为开放获取,该判定依据来自https://doaj.org/ 的公开数据;PMC_OA用于标识文章是否隶属于PMC开放获取合集。
提供机构:
introvoyz041
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作