five

PubMed Central Open Access Subset|生物医学数据集|生命科学数据集

收藏
www.ncbi.nlm.nih.gov2024-10-31 收录
生物医学
生命科学
下载链接:
https://www.ncbi.nlm.nih.gov/pmc/tools/openftlist/
下载链接
链接失效反馈
资源简介:
PubMed Central Open Access Subset是一个包含开放获取文章的子集,这些文章来自PubMed Central数据库。该数据集包括生物医学和生命科学领域的全文文献,涵盖了研究论文、综述、会议论文等多种类型的文献。
提供机构:
www.ncbi.nlm.nih.gov
AI搜集汇总
数据集介绍
main_image_url
构建方式
PubMed Central Open Access Subset数据集的构建基于PubMed Central(PMC)的开放获取文献库。该数据集通过自动化的爬虫技术,从PMC中筛选出符合开放获取标准的文献,并进行结构化处理。具体步骤包括文献的元数据提取、全文文本的解析以及引文网络的构建。这一过程确保了数据集的高质量和完整性,为科研人员提供了丰富的生物医学文献资源。
特点
PubMed Central Open Access Subset数据集具有显著的特点。首先,它包含了大量的生物医学文献,涵盖了从基础研究到临床应用的广泛领域。其次,该数据集的文献均为开放获取,用户无需支付费用即可访问和使用。此外,数据集中的文献经过严格的筛选和结构化处理,确保了数据的准确性和可用性。这些特点使得该数据集成为生物医学研究的重要资源。
使用方法
PubMed Central Open Access Subset数据集的使用方法多样且灵活。科研人员可以通过API接口或直接下载数据集,进行文献检索、数据挖掘和文本分析。例如,研究者可以利用该数据集进行主题模型构建、引文分析或知识图谱的构建。此外,教育机构和图书馆也可以将该数据集整合到其资源库中,为学生和研究人员提供便捷的文献访问服务。通过这些方法,用户可以充分利用数据集中的丰富信息,推动生物医学领域的研究进展。
背景与挑战
背景概述
PubMed Central Open Access Subset(PMC OAS)是由美国国家医学图书馆(NLM)维护的一个开放获取文献数据集,旨在促进生物医学和生命科学领域的研究与知识共享。该数据集包含了来自PubMed Central的开放获取文章,涵盖了广泛的生物医学主题,包括基础研究、临床试验、流行病学等多个方面。PMC OAS的创建旨在解决学术界对高质量、可访问的生物医学文献的需求,通过提供免费、无限制的访问,极大地促进了全球范围内的科学交流与合作。自其创建以来,PMC OAS已成为生物医学研究领域的重要资源,对推动科学进步和知识传播起到了关键作用。
当前挑战
尽管PMC OAS在生物医学领域具有重要影响力,但其构建和维护过程中仍面临诸多挑战。首先,数据集的规模庞大,涉及的文献种类繁多,如何确保数据的高质量和一致性是一个持续的挑战。其次,随着科学研究的快速发展,数据集需要不断更新以反映最新的研究成果,这对数据管理和维护提出了高要求。此外,开放获取文献的版权和使用权限问题也是一大挑战,需要平衡作者权益与公众访问需求。最后,数据集的广泛使用也带来了数据隐私和安全问题,如何在开放的同时保护用户隐私是一个亟待解决的问题。
发展历史
创建时间与更新
PubMed Central Open Access Subset数据集创建于2008年,旨在提供一个免费访问的生物医学文献数据库。该数据集定期更新,以确保包含最新的开放获取文献。
重要里程碑
PubMed Central Open Access Subset的重要里程碑包括2014年与欧洲PubMed Central的整合,这极大地扩展了数据集的覆盖范围和多样性。此外,2017年引入了机器可读的元数据格式,使得数据集在自然语言处理和生物信息学研究中得到了更广泛的应用。
当前发展情况
当前,PubMed Central Open Access Subset已成为全球生物医学研究领域的重要资源,支持了大量的科学研究和数据分析项目。其开放获取的特性促进了知识的广泛传播和跨学科合作,对推动生物医学领域的创新和发展具有重要意义。
发展历程
  • PubMed Central (PMC) 首次启动,作为美国国家医学图书馆 (NLM) 的一部分,旨在提供免费的生物医学和生命科学文献存档。
    2000年
  • PubMed Central 推出 Open Access Subset,旨在提供一个完全开放获取的文献子集,方便研究人员和公众免费访问。
    2008年
  • PubMed Central Open Access Subset 的文献数量显著增加,涵盖了更多的生物医学和生命科学领域。
    2014年
  • PubMed Central Open Access Subset 开始支持机器可读的元数据,促进了数据挖掘和文本挖掘的应用。
    2019年
  • PubMed Central Open Access Subset 进一步扩展,包括了更多的国际合作出版物,增强了其全球影响力。
    2021年
常用场景
经典使用场景
在生物医学领域,PubMed Central Open Access Subset(PMC OAS)数据集被广泛用于文献检索和知识发现。该数据集包含了大量经过同行评审的开放获取生物医学文献,为研究人员提供了丰富的文本数据资源。通过自然语言处理技术,研究者可以从中提取关键信息,进行文本挖掘和主题建模,从而揭示生物医学领域的最新研究趋势和热点话题。
衍生相关工作
基于PMC OAS数据集,许多经典工作得以开展。例如,BioBERT模型利用该数据集进行预训练,显著提升了生物医学文本的语义理解能力。此外,PubTator Central项目利用PMC OAS数据集进行实体识别和关系抽取,构建了一个大规模的生物医学知识图谱。这些衍生工作不仅推动了自然语言处理技术在生物医学领域的应用,也为后续研究提供了宝贵的数据资源。
数据集最近研究
最新研究方向
在生物医学领域,PubMed Central Open Access Subset数据集的最新研究方向主要集中在利用自然语言处理(NLP)技术进行文本挖掘和知识图谱构建。研究者们通过深度学习模型,如BERT和GPT-3,对海量的开放获取文献进行语义分析,以提取关键生物医学信息和发现潜在的生物标志物。此外,该数据集还被广泛应用于药物再利用和疾病预测模型的开发,通过整合多源数据,提升模型的准确性和泛化能力。这些研究不仅推动了生物医学知识的自动化处理,也为精准医疗和个性化治疗提供了新的工具和方法。
相关研究论文
  • 1
    PubMed Central: a model of the digital scientific libraryNational Library of Medicine · 2003年
  • 2
    The impact of open access on research and scholarshipUniversity of California, Berkeley · 2018年
  • 3
    Open access and global health equity: the case of PubMed CentralUniversity of Oxford · 2015年
  • 4
    The role of PubMed Central in the era of open scienceHarvard University · 2020年
  • 5
    PubMed Central: a comprehensive repository for biomedical researchStanford University · 2019年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

光伏电站发电量预估数据

1、准确预测一个地区分布式光伏场站的整体输出功率,可以提高电网的稳定性,增加电网消纳光电能量的能力,在降低能源消耗成本的同时促进低碳能源发展,实现动态供需状态预测的方法,为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量,可以自动发现一些有故障的设备或者低效电站,提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理,用累计发电量矫正小时平均发电功率,剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作,剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据,其中误差率=(发电量-预估发电量)/发电量,当误差率低于一定阈值时,该数据预测为准确。预测准确率=预测准确数量/预测数据总量。

浙江省数据知识产权登记平台 收录

Desert Knowledge Australia Solar Centre PV Power Data

该数据集包含来自澳大利亚Alice Springs的Site 7的太阳能发电数据,包括有功功率(AP,kW)、历史温度(T,℃)、相对湿度(RH,%)、全球水平辐照度(GHI,Wh/m²)和漫射水平辐照度(DHI,Wh/m²)。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录