five

PubMed|生物医学数据集|文献引文数据集

收藏
Snowflake2022-01-29 更新2024-05-01 收录
生物医学
文献引文
下载链接:
https://app.snowflake.com/marketplace/listing/GZSTZJUPCVD
下载链接
链接失效反馈
资源简介:
About: The PubMed dataset contains more than 33 million citations and abstracts of biomedical literature. MEDLINE is the largest subset of PubMed. MEDLINE is the National Library of Medicine's (NLM) premier bibliographic database that contains more than 28 million references to journal articles in life sciences with a concentration on biomedicine. Once a year, NLM releases a complete (baseline) set of PubMed citation records in XML format for download, which have been ingested in this listing. - We have taken these XML files from source through our automated pipeline - Next we have developed a custom parser that converts into a Table format - Finally it is loaded in Element Data's custom warehouse * Incremental are also available at the source, which are updated files are then released daily and include new, revised, and deleted citations. The PubMed DTD states any changes to the structure and allowed elements from year to year. Source: The data is sourced from NCBI FTP server. Key Table and its fields: 1 Table 23 Columns, as follows Key Column Names: - pmid : PubMed ID - pmc : PubMed Central ID - other_id : Other IDs found, each separated by ; - title : title of the article - country : Country extracted from journal - journal : journal of the given paper - pubdate : Publication date. Defaults to year information only. - medline_ta : this is abbreviation of the journal name - nlm_unique_id : NLM unique identification - reference : string of PMID each separated by ; or list of references made to the article - delete : boolean if False means paper got updated so you might have two - languages : list of languages, separated by - vernacular_title: vernacular title. Defaults to empty string whenever non-available. - abstract : abstract of the article - authors : authors, each separated by ; - mesh_terms : list of MeSH terms with corresponding MeSH ID - publication_types : list of publication type list each separated by ; - keywords : list of keywords, each separated by
提供机构:
Element Data
创建时间:
2022-01-24
AI搜集汇总
数据集介绍
main_image_url
构建方式
PubMed数据集的构建基于美国国家医学图书馆(NLM)的PubMed数据库,该数据库自1966年以来持续收录生物医学和生命科学领域的文献。数据集通过自动化的文本挖掘和人工审核相结合的方式,从数百万篇科学论文中提取关键信息,包括标题、摘要、关键词和引用信息。构建过程中,采用了先进的自然语言处理技术,确保数据的准确性和完整性。
特点
PubMed数据集以其庞大的规模和高质量的内容著称,涵盖了从基础研究到临床应用的广泛领域。数据集中的文献经过严格筛选,确保了信息的权威性和可靠性。此外,PubMed数据集支持多种查询和分析功能,用户可以根据关键词、作者、机构等进行精确检索,满足不同研究需求。
使用方法
PubMed数据集适用于多种研究场景,包括但不限于生物医学研究、药物开发、流行病学分析和临床决策支持。用户可以通过PubMed官方网站或API接口访问数据集,进行文献检索、数据挖掘和知识图谱构建。使用时,建议结合具体的科研问题,利用数据集提供的丰富信息进行深入分析和探索。
背景与挑战
背景概述
PubMed数据集,由美国国家医学图书馆(NLM)于1996年创建,是生物医学领域中最为广泛使用的文献数据库之一。该数据集汇集了来自MEDLINE、生命科学期刊和在线书籍的超过3000万条记录,涵盖了从基础生物医学研究到临床实践的广泛主题。PubMed的核心研究问题在于如何高效地组织和检索海量的生物医学文献,以支持科研人员、临床医生和政策制定者的信息需求。其影响力不仅体现在学术研究中,还对公共卫生政策和临床决策产生了深远影响。
当前挑战
PubMed数据集在解决生物医学文献检索和组织问题时面临多项挑战。首先,数据量的急剧增长使得高效检索和准确分类变得困难。其次,文献内容的多样性和复杂性,包括多语言、多学科交叉和不断更新的医学术语,增加了数据处理的复杂度。此外,PubMed在构建过程中还需应对数据质量控制、用户个性化检索需求以及跨平台数据整合等技术难题。这些挑战不仅影响了数据集的可用性和用户体验,也对生物医学研究的效率和准确性提出了更高要求。
发展历史
创建时间与更新
PubMed数据集由美国国家医学图书馆(NLM)于1996年创建,旨在提供生物医学文献的免费访问。该数据集自创建以来持续更新,每月新增数万篇文献,确保其内容的时效性和全面性。
重要里程碑
PubMed的第一个重要里程碑是1997年与MEDLINE数据库的整合,这一举措极大地扩展了其收录范围,使其成为全球最大的生物医学文献数据库之一。2000年,PubMed Central(PMC)的推出进一步增强了其影响力,PMC是一个免费的生物医学和生命科学文献全文数据库。2010年,PubMed引入了PubMed Health,专注于提供健康相关文献的全面检索服务,进一步细分了其服务领域。
当前发展情况
当前,PubMed继续在全球生物医学研究领域发挥着核心作用。其强大的检索功能和广泛的文献覆盖范围,使其成为研究人员、医生和学生不可或缺的工具。PubMed的持续更新和扩展,不仅推动了生物医学信息的传播,还促进了跨学科研究的进展。此外,PubMed与PubMed Central的协同发展,为开放获取运动提供了有力支持,推动了科学知识的共享和普及。
发展历程
  • PubMed首次发布,作为美国国家医学图书馆(NLM)的一部分,旨在提供生物医学文献的免费访问。
    1996年
  • PubMed Central(PMC)成立,作为PubMed的补充,提供免费的全文生物医学文献数据库。
    2000年
  • PubMed引入了MeSH(医学主题词表)作为文献检索的标准化工具,增强了检索的准确性和效率。
    2005年
  • PubMed引入了PubMed Health,专注于提供有关健康和医疗保健的系统评价和临床试验结果。
    2010年
  • PubMed引入了新的用户界面,增强了用户体验和功能,包括更直观的搜索和导航工具。
    2017年
  • PubMed与欧洲生物信息学研究所(EBI)合作,整合了欧洲分子生物学实验室(EMBL-EBI)的资源,进一步扩大了其覆盖范围。
    2020年
常用场景
经典使用场景
在生物医学领域,PubMed数据集以其庞大的文献库和详尽的元数据著称。研究者常利用PubMed进行文献检索,以获取特定疾病、药物或生物标志物的最新研究进展。通过高级搜索功能,用户可以筛选出符合特定标准的文献,从而为实验设计、数据分析和理论构建提供坚实的文献基础。此外,PubMed还支持文本挖掘和自然语言处理技术的应用,帮助研究者从海量文献中提取关键信息,加速知识发现的过程。
解决学术问题
PubMed数据集在解决生物医学领域的学术研究问题中发挥了重要作用。它不仅提供了全面的文献资源,还通过其强大的搜索和过滤功能,帮助研究者快速定位相关文献,从而解决了信息过载和文献检索效率低下的问题。此外,PubMed的文本挖掘功能使得大规模文献分析成为可能,有助于识别研究热点、趋势和潜在的关联性,推动了生物医学研究的深入发展。
衍生相关工作
PubMed数据集的广泛应用催生了众多相关研究和工作。例如,基于PubMed的文本挖掘技术被用于构建生物医学知识图谱,帮助研究者更好地理解复杂的生物医学关系。此外,PubMed的文献数据还被用于训练自然语言处理模型,提高了生物医学文本的自动理解和生成能力。这些衍生工作不仅丰富了PubMed的应用场景,也推动了生物医学信息学领域的技术进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

Coffee_Shop_Sales

该数据集包含了咖啡店的详细交易信息,包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况,如收入和交易量的变化趋势。

github 收录

koen430/relevant_selected_stock_news

该数据集包含通过GPT-3.5-turbo筛选出的新闻文章,旨在用于微调大型语言模型,以预测新闻发布后的股票价格变动。数据集包括多个特征,如股票代码、提示、文本、URL、结果、相关性、令牌计数等,并分为训练集、验证集和测试集。

hugging_face 收录

NREL Wind Integration National Dataset (WIND) Toolkit

NREL Wind Integration National Dataset (WIND) Toolkit 是一个包含美国大陆风能资源和电力系统集成数据的综合数据集。该数据集提供了高分辨率的风速、风向、风能密度、电力输出等数据,覆盖了美国大陆的多个地理区域。这些数据有助于研究人员和工程师进行风能资源评估、电力系统规划和集成研究。

www.nrel.gov 收录