Shaier/pubmed
收藏Hugging Face2023-05-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Shaier/pubmed
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
tags:
- pubmed
- biomedicine
pretty_name: PubMed Abstracts
size_categories:
- 10M<n<100M
---
# Dataset Card for Dataset Name
## Dataset Description
- **Homepage:**
- **Repository:**
- **Paper:**
- **Leaderboard:**
- **Point of Contact:**
### Dataset Summary
PubMed abstracts and their corresponding titles, author lists, and dates, before June 2022. The dataset contains 20.5M entries (removed those with empty authors list, no title, or no abstract).
### Languages
English
## Dataset Structure
[More Information Needed]
### Data Instances
[More Information Needed]
### Data Fields
[More Information Needed]
### Data Splits
[More Information Needed]
## Dataset Creation
See https://github.com/Shaier/download_pubmed
### Curation Rationale
[More Information Needed]
### Source Data
See https://github.com/Shaier/download_pubmed
### Licensing Information
[More Information Needed]
### Citation Information
[More Information Needed]
### Contributions
[More Information Needed]
---
语言:
- 英语
标签:
- PubMed(PubMed)
- 生物医学(biomedicine)
数据集展示名:PubMed 摘要
样本量范围:1000万 < 样本量 < 1亿
---
# 数据集卡片
## 数据集描述
- **主页:**
- **仓库:**
- **论文:**
- **排行榜:**
- **联系人:**
### 数据集概况
2022年6月之前的PubMed摘要及其对应标题、作者列表与发表日期。本数据集共包含2050万条有效条目(已剔除作者列表为空、无标题或无摘要的条目)。
### 语言
英语
## 数据集结构
[需补充更多信息]
### 数据实例
[需补充更多信息]
### 数据字段
[需补充更多信息]
### 数据划分
[需补充更多信息]
## 数据集构建
详见:https://github.com/Shaier/download_pubmed
### 筛选依据
[需补充更多信息]
### 源数据
详见:https://github.com/Shaier/download_pubmed
### 授权信息
[需补充更多信息]
### 引用信息
[需补充更多信息]
### 贡献说明
[需补充更多信息]
提供机构:
Shaier
原始信息汇总
数据集概述
数据集描述
数据集总结
- 内容: PubMed摘要及其对应的标题、作者列表和日期,截至2022年6月。
- 规模: 包含2050万条记录,已剔除无作者列表、无标题或无摘要的条目。
语言
- 主要语言: 英语
数据集创建
- 来源: 参见 https://github.com/Shaier/download_pubmed
搜集汇总
数据集介绍

构建方式
在生物医学领域,为了便于研究者检索与分析PubMed摘要信息,Shaier/pubmed数据集应运而生。该数据集通过从PubMed数据库抓取相关数据,并经过严格的清洗过程,移除了作者列表为空、无标题或摘要的条目,最终构建了包含20.5M条记录的集合。
使用方法
用户可以通过访问数据集的存储库来获取数据。在使用过程中,用户需遵循相应的数据使用协议。具体使用时,研究者可以根据自身需要,对数据集中的文本进行挖掘、分析和模型训练,以推进生物医学相关的学术研究。
背景与挑战
背景概述
在生物医学研究领域,PubMed作为全球最大的生命科学文献数据库,其摘要信息的可用性对于学术研究和临床决策至关重要。Shaier/pubmed数据集的创建,旨在为研究者提供一个包含截至2022年6月前的PubMed摘要及其对应标题、作者列表和日期的集合。该数据集由20.5百万条条目构成,经过筛选,移除了缺少作者、标题或摘要的条目。此数据集的问世,不仅丰富了生物医学文本挖掘的资源,也为自然语言处理、信息检索等领域的研究提供了重要支撑。
当前挑战
尽管Shaier/pubmed数据集为生物医学研究提供了丰富的文本资源,但在使用过程中仍面临诸多挑战。首先,数据集的构建过程中,如何高效地从PubMed数据库中下载并处理大量数据,保证数据的完整性与准确性,是一大挑战。其次,数据集的标注与清洗,如去除无效条目、统一字段格式等,对于后续的数据分析和模型训练至关重要。此外,如何在保护知识产权的前提下,合理使用这些数据进行研究,并确保遵守相应的数据使用许可,也是当前面临的重要挑战。
常用场景
经典使用场景
在生物医学研究领域,Shaier/pubmed数据集的经典使用场景主要在于提供海量的PubMed摘要文本,供研究者进行文献挖掘和文本分析。该数据集为研究人员提供了丰富的文本资源,使其能够利用自然语言处理技术,对医学文献中的关键信息进行提取、分类和关联分析,进而探索生物医学领域的知识结构和研究趋势。
解决学术问题
该数据集解决了学术研究中关于生物医学文献检索、信息提取和知识发现的一系列问题。它使得研究者能够高效地定位相关文献,通过文本挖掘技术分析文献中的关键概念、研究热点和学术趋势,为生物医学研究提供了强有力的数据支撑,加速了科研成果的产出。
实际应用
在实际应用中,Shaier/pubmed数据集被广泛应用于药物发现、疾病预测、生物信息学等多个领域。它不仅为医疗健康行业提供了数据支持,还助力于临床决策支持系统的构建,为医生和研究人员提供了便捷的文献查询和分析工具。
数据集最近研究
最新研究方向
在生物医学领域,PubMed Abstracts数据集作为一项重要的资源,汇集了截至2022年6月前的2000万条医学摘要及相关信息。近期研究聚焦于通过深度学习技术提取和利用这些摘要中的丰富知识,进而推进药物发现、疾病机理探究以及临床决策支持系统的发展。该数据集的利用在生物信息学、自然语言处理和医学研究交叉领域尤为显著,其影响和意义在于促进了跨学科的合作,加速了医学知识的挖掘与转化,为精准医疗和智慧医疗的发展提供了数据支撑。
以上内容由遇见数据集搜集并总结生成



