ncbi/pubmed
收藏Hugging Face2024-01-26 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ncbi/pubmed
下载链接
链接失效反馈官方服务:
资源简介:
PubMed数据集包含超过3600万条生物医学文献的引用,涵盖了MEDLINE、生命科学期刊和在线书籍的引用。数据集以XML格式提供,每年更新一次,并且每天都会生成包含新、修订和删除引用的更新文件。数据集的主要字段包括文章的作者、摘要、标题、化学物质列表和引用数量等。数据集的结构较为复杂,保留了原始数据的层次结构,并且没有进行数据分割。数据集的创建和更新由国家生物技术信息中心(NCBI)负责,并且数据的使用受到国家医学图书馆(NLM)的条款和条件的约束。
PubMed数据集包含超过3600万条生物医学文献的引用,涵盖了MEDLINE、生命科学期刊和在线书籍的引用。数据集以XML格式提供,每年更新一次,并且每天都会生成包含新、修订和删除引用的更新文件。数据集的主要字段包括文章的作者、摘要、标题、化学物质列表和引用数量等。数据集的结构较为复杂,保留了原始数据的层次结构,并且没有进行数据分割。数据集的创建和更新由国家生物技术信息中心(NCBI)负责,并且数据的使用受到国家医学图书馆(NLM)的条款和条件的约束。
提供机构:
ncbi
原始信息汇总
数据集概述
- 名称: PubMed
- 语言: 英语
- 许可: 其他
- 多语言性: 单语
- 大小: 10M<n<100M
- 源数据: 原始
- 任务类别: 文本生成、填充掩码、文本分类
- 任务ID: 语言建模、掩码语言建模、文本评分、主题分类
- 论文代码ID: pubmed
- 美观名称: PubMed
- 标签: 引用估计
数据集结构
数据实例
- MedlineCitation: 包含PMID、完成日期、引用参考数量、修订日期、文章信息等。
- PubmedData: 包含文章ID列表、出版状态、历史记录、引用列表等。
数据字段
- MedlineCitation > Article > AuthorList > Author: 作者信息。
- MedlineCitation > Article > Abstract > AbstractText: 摘要文本。
- MedlineCitation > Article > ArticleTitle: 文章标题。
- MedlineCitation > ChemicalList > Chemical: 化学物质信息。
- MedlineCitation > NumberOfReferences: 引用参考数量。
数据分割
- 训练集: 36555430个实例,数据大小为54723097181字节,下载大小为45202943276字节。
数据集创建
来源数据
- 初始数据收集和标准化: 信息缺失。
- 源语言生产者: 信息缺失。
注释
- 注释过程: 信息缺失。
- 注释者: 信息缺失。
个人和敏感信息
- 处理: 信息缺失。
使用数据的考虑
社会影响
- 影响: 信息缺失。
偏见讨论
- 偏见: 信息缺失。
其他已知限制
- 限制: 信息缺失。
附加信息
数据集管理者
- 管理者: 信息缺失。
许可信息
- 许可: 国家医学图书馆条款和条件。
引用信息
- 引用: 美国国家医学图书馆提供。
贡献
- 贡献者: @Narsil。
搜集汇总
数据集介绍

构建方式
PubMed数据集的构建是基于美国国立生物技术信息中心(NCBI)的MEDLINE数据库,包含生物医学文献的超过3600万条引文。该数据集的构建过程涉及将MEDLINE、生命科学期刊和在线书籍中的引文信息转换为XML格式,并在此基础上进行结构化处理,形成可供机器学习和自然语言处理任务使用的格式。构建过程中保留了包括文章标题、摘要、作者列表、参考文献、化学物质列表和期刊信息等丰富字段,以尽可能贴近原始数据结构,便于未来数据模式的调整与兼容。
特点
PubMed数据集的特点在于其内容的丰富性和专业性,涵盖了广泛的生物医学领域文献。数据集以英文单语种形式存在,包含了详细的文献元数据,如作者信息、出版日期、引用信息等。此外,数据集的规模宏大,提供了大量的训练样本,适用于文本生成、填空、文本分类等多种自然语言处理任务。然而,数据集未提供明确的分片,用户通常需要根据具体任务需求对数据进行进一步的处理和划分。
使用方法
使用PubMed数据集时,用户首先需要确保遵守相关的使用条款和条件。数据集可以通过下载获得,用户可以将其用于训练自然语言处理模型,支持如文本分类、信息提取等任务。由于数据集以XML格式提供,用户可能需要进行预处理,将数据转换为更适合模型训练的格式,如JSON或CSV。在使用数据集的过程中,应确保数据的最新性,并在必要时对模型进行更新,以反映最新版本的PubMed数据集内容。
背景与挑战
背景概述
PubMed数据集,由美国国家生物技术信息中心(NCBI)创建,是一个包含超过3600万条生物医学文献引用的庞大集合,涵盖MEDLINE、生命科学期刊及在线书籍。该数据集自1975年起开始收录摘要信息,并不断更新,以反映生物医学领域的最新研究进展。PubMed的数据对于学术研究、临床决策及公共卫生政策制定具有重要意义,是生物医学研究者和专业人士不可或缺的资源。
当前挑战
尽管PubMed数据集在生物医学领域具有广泛的应用,但其构建和使用过程中也存在一些挑战。首先,数据集的构建需要处理大量的异构数据,确保数据的准确性和一致性是一项复杂的任务。其次,数据集的版权问题给数据的使用和共享带来限制,尤其是在商业和非商业应用中的界限划分。此外,数据集的规模巨大,对计算资源和处理能力提出了较高的要求,如何高效地存储、检索和分析数据也是一个挑战。
常用场景
经典使用场景
在医学文本挖掘与信息检索领域,PubMed数据集的经典使用场景主要在于为研究人员提供丰富的生物医学文献摘要与引用信息,以便进行文献计量分析、趋势预测以及研究热点探索。该数据集支持构建文本生成模型,以自动摘要或生成研究论文的摘要部分。
实际应用
在实际应用中,PubMed数据集广泛应用于药物研发、生物信息学分析、医学教育以及临床决策支持系统。制药公司可以利用该数据集进行药物作用的文献调研,医学教育机构则可以利用其进行案例教学和学术研究培训。
衍生相关工作
基于PubMed数据集,衍生出了众多经典工作,如构建生物医学文本挖掘工具、开发自动化文献筛选系统以及进行医学领域的知识图谱构建。这些工作极大地推动了医学信息学的进展,并为后续的研究提供了丰富的资源和工具。
以上内容由遇见数据集搜集并总结生成



