Shaier/pubmed

Name: Shaier/pubmed
Creator: Shaier
Published: 2023-05-05 18:41:36
License: 暂无描述

Hugging Face2023-05-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Shaier/pubmed

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en tags: - pubmed - biomedicine pretty_name: PubMed Abstracts size_categories: - 10M<n<100M --- # Dataset Card for Dataset Name ## Dataset Description - **Homepage:** - **Repository:** - **Paper:** - **Leaderboard:** - **Point of Contact:** ### Dataset Summary PubMed abstracts and their corresponding titles, author lists, and dates, before June 2022. The dataset contains 20.5M entries (removed those with empty authors list, no title, or no abstract). ### Languages English ## Dataset Structure [More Information Needed] ### Data Instances [More Information Needed] ### Data Fields [More Information Needed] ### Data Splits [More Information Needed] ## Dataset Creation See https://github.com/Shaier/download_pubmed ### Curation Rationale [More Information Needed] ### Source Data See https://github.com/Shaier/download_pubmed ### Licensing Information [More Information Needed] ### Citation Information [More Information Needed] ### Contributions [More Information Needed]

--- 语言： - 英语标签： - PubMed（PubMed） - 生物医学（biomedicine）数据集展示名：PubMed 摘要样本量范围：1000万 < 样本量 < 1亿 --- # 数据集卡片 ## 数据集描述 - **主页：** - **仓库：** - **论文：** - **排行榜：** - **联系人：** ### 数据集概况 2022年6月之前的PubMed摘要及其对应标题、作者列表与发表日期。本数据集共包含2050万条有效条目（已剔除作者列表为空、无标题或无摘要的条目）。 ### 语言英语 ## 数据集结构 [需补充更多信息] ### 数据实例 [需补充更多信息] ### 数据字段 [需补充更多信息] ### 数据划分 [需补充更多信息] ## 数据集构建详见：https://github.com/Shaier/download_pubmed ### 筛选依据 [需补充更多信息] ### 源数据详见：https://github.com/Shaier/download_pubmed ### 授权信息 [需补充更多信息] ### 引用信息 [需补充更多信息] ### 贡献说明 [需补充更多信息]

提供机构：

Shaier

原始信息汇总

数据集概述

数据集描述

数据集总结

内容: PubMed摘要及其对应的标题、作者列表和日期，截至2022年6月。
规模: 包含2050万条记录，已剔除无作者列表、无标题或无摘要的条目。

语言

主要语言: 英语

数据集创建

来源: 参见 https://github.com/Shaier/download_pubmed

搜集汇总

数据集介绍

构建方式

在生物医学领域，为了便于研究者检索与分析PubMed摘要信息，Shaier/pubmed数据集应运而生。该数据集通过从PubMed数据库抓取相关数据，并经过严格的清洗过程，移除了作者列表为空、无标题或摘要的条目，最终构建了包含20.5M条记录的集合。

使用方法

用户可以通过访问数据集的存储库来获取数据。在使用过程中，用户需遵循相应的数据使用协议。具体使用时，研究者可以根据自身需要，对数据集中的文本进行挖掘、分析和模型训练，以推进生物医学相关的学术研究。

背景与挑战

背景概述

在生物医学研究领域，PubMed作为全球最大的生命科学文献数据库，其摘要信息的可用性对于学术研究和临床决策至关重要。Shaier/pubmed数据集的创建，旨在为研究者提供一个包含截至2022年6月前的PubMed摘要及其对应标题、作者列表和日期的集合。该数据集由20.5百万条条目构成，经过筛选，移除了缺少作者、标题或摘要的条目。此数据集的问世，不仅丰富了生物医学文本挖掘的资源，也为自然语言处理、信息检索等领域的研究提供了重要支撑。

当前挑战

尽管Shaier/pubmed数据集为生物医学研究提供了丰富的文本资源，但在使用过程中仍面临诸多挑战。首先，数据集的构建过程中，如何高效地从PubMed数据库中下载并处理大量数据，保证数据的完整性与准确性，是一大挑战。其次，数据集的标注与清洗，如去除无效条目、统一字段格式等，对于后续的数据分析和模型训练至关重要。此外，如何在保护知识产权的前提下，合理使用这些数据进行研究，并确保遵守相应的数据使用许可，也是当前面临的重要挑战。

常用场景

经典使用场景

在生物医学研究领域，Shaier/pubmed数据集的经典使用场景主要在于提供海量的PubMed摘要文本，供研究者进行文献挖掘和文本分析。该数据集为研究人员提供了丰富的文本资源，使其能够利用自然语言处理技术，对医学文献中的关键信息进行提取、分类和关联分析，进而探索生物医学领域的知识结构和研究趋势。

解决学术问题

该数据集解决了学术研究中关于生物医学文献检索、信息提取和知识发现的一系列问题。它使得研究者能够高效地定位相关文献，通过文本挖掘技术分析文献中的关键概念、研究热点和学术趋势，为生物医学研究提供了强有力的数据支撑，加速了科研成果的产出。

实际应用

在实际应用中，Shaier/pubmed数据集被广泛应用于药物发现、疾病预测、生物信息学等多个领域。它不仅为医疗健康行业提供了数据支持，还助力于临床决策支持系统的构建，为医生和研究人员提供了便捷的文献查询和分析工具。

数据集最近研究