casinca/PUBMED_title_abstracts_2019_baseline

Name: casinca/PUBMED_title_abstracts_2019_baseline
Creator: casinca
Published: 2024-05-17 16:14:56
License: 暂无描述

Hugging Face2024-05-17 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/casinca/PUBMED_title_abstracts_2019_baseline

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en tags: - medical pretty_name: PUBMED Title and Abstracts 2019 Baseline --- # PUBMED Title and Abstracts 2019 Baseline This dataset contains the titles and abstracts from biomedical publications on PubMed, extracted from the 2019 baseline. **It has been uploaded to Hugging Face as it is no longer hosted on the Eye and may help students w.r.t HF [NLP Course CH5-4 Big data](https://huggingface.co/learn/nlp-course/chapter5/4)** ## Context More infos from the HF course [here](https://huggingface.co/learn/nlp-course/chapter5/4#what-is-the-pile). "The Pile" (825 GB) is an English text corpus created by EleutherAI for training large-scale language models. It includes a diverse range of datasets, spanning scientific articles, GitHub code repositories, and filtered web text. The training corpus is available in 14 GB chunks, and you can also download several of the individual components. One of these components is the PubMed Abstracts dataset, which is a corpus of abstracts from 15 million biomedical publications on PubMed. ## Dataset Details - **Dataset Name**: PUBMED_title_abstracts_2019_baseline - **Format**: JSON Lines - **Compression**: zstandard ## Usage (example for the course) To use this dataset, you just need to change the url from the course as follow: ```python from datasets import load_dataset, DownloadConfig data_files = "https://huggingface.co/datasets/casinca/PUBMED_title_abstracts_2019_baseline/resolve/main/PUBMED_title_abstracts_2019_baseline.jsonl.zst" pubmed_dataset = load_dataset( "json", data_files=data_files, split="train", download_config=DownloadConfig(delete_extracted=True), # (optional arg)using DownloadConfig to save HD space ) ``` Alternatively ```python from datasets import load_dataset pubmed_dataset = load_dataset("casinca/PUBMED_title_abstracts_2019_baseline", split="train") pubmed_dataset ```

This dataset contains the titles and abstracts from biomedical publications on PubMed, extracted from the 2019 baseline. The dataset is in JSON Lines format and is compressed using zstandard. It is intended to assist students in the Hugging Face NLP course, specifically in the context of The Pile, a large-scale English text corpus used for training language models. The dataset is available for download and can be loaded using the Hugging Face datasets library.

提供机构：

casinca

原始信息汇总

PUBMED Title and Abstracts 2019 Baseline

数据集概述

语言: 英语
标签: 医学
完整名称: PUBMED Title and Abstracts 2019 Baseline

数据集内容

该数据集包含从2019年基准提取的生物医学出版物在PubMed上的标题和摘要。

数据集详情

数据集名称: PUBMED_title_abstracts_2019_baseline
格式: JSON Lines
压缩: zstandard

使用示例

示例代码1

python from datasets import load_dataset, DownloadConfig

data_files = "https://huggingface.co/datasets/casinca/PUBMED_title_abstracts_2019_baseline/resolve/main/PUBMED_title_abstracts_2019_baseline.jsonl.zst" pubmed_dataset = load_dataset( "json", data_files=data_files, split="train", download_config=DownloadConfig(delete_extracted=True), # (optional arg)using DownloadConfig to save HD space )

示例代码2

python from datasets import load_dataset

pubmed_dataset = load_dataset("casinca/PUBMED_title_abstracts_2019_baseline", split="train") pubmed_dataset

搜集汇总

数据集介绍

构建方式

在生物医学信息学领域，构建高质量文本语料库对推进自然语言处理研究至关重要。该数据集源自PubMed数据库2019年基线版本，通过系统化抽取超过1500万篇生物医学文献的标题与摘要构建而成。数据以JSON Lines格式存储，并采用zstandard压缩算法优化存储效率，确保原始文本的结构完整性与可访问性。这一构建过程遵循学术数据标准，为后续的大规模语言模型训练提供了结构化的专业语料基础。

特点

作为生物医学文本挖掘的重要资源，该数据集展现出鲜明的领域特性。其内容涵盖广泛的医学主题，从基础生物学机制到临床研究前沿，文本兼具专业术语的精确性与学术表达的规范性。数据集规模庞大且经过时间锚定，反映了特定历史阶段的科研产出全貌。这种高密度专业知识的聚合体，为训练领域适应性语言模型提供了不可多得的语义素材，尤其适合探索医学术语理解与科学文献生成等任务。

使用方法

在实践应用中，研究者可通过Hugging Face生态系统便捷地调用该数据集。使用datasets库的load_dataset函数，指定数据集名称或直接链接压缩文件路径即可加载。加载时支持灵活配置下载参数，例如通过DownloadConfig管理存储空间。数据加载后呈现标准的可迭代结构，可直接应用于模型预训练、文本表征学习或生物医学信息检索等场景，与现有NLP工具链实现无缝集成。

背景与挑战

背景概述

在生物医学信息学领域，高质量文本语料的构建对于推动自然语言处理技术的发展至关重要。PUBMED_title_abstracts_2019_baseline数据集由EleutherAI研究团队于2019年创建，作为大规模语言模型训练语料库'The Pile'的核心组成部分之一。该数据集系统收录了PubMed平台上逾1500万篇生物医学文献的标题与摘要，旨在为科研人员提供结构化的学术文本资源，以支持生物医学文本挖掘、知识发现及语言模型预训练等前沿研究。其广泛覆盖的学科范围与规范的元数据标注，显著提升了生物医学自然语言处理任务的基准水平，为后续的智能文献检索、自动摘要生成等应用奠定了坚实基础。

当前挑战

该数据集致力于应对生物医学文本挖掘中的核心挑战，即如何从海量非结构化文献中高效提取精准的语义信息，并克服专业术语密集、句式结构复杂等语言特性带来的理解障碍。在构建过程中，研究人员需处理原始数据的异构性，确保标题与摘要字段的完整抽取，同时维持文本的学术规范性。此外，大规模语料的压缩存储与高效加载亦构成技术难点，需平衡数据完整性、访问速度及存储开销之间的微妙关系。这些挑战共同塑造了数据集在生物医学自然语言处理领域的独特价值与应用边界。

常用场景

经典使用场景

在生物医学自然语言处理领域，该数据集作为大规模预训练语料库的核心组成部分，常被用于训练和评估语言模型。其经典使用场景聚焦于模型在专业医学文本上的理解与生成能力，例如通过掩码语言建模任务学习医学术语间的复杂关联，或利用序列到序列架构进行摘要生成，从而提升模型对生物医学文献的语义表征精度。

解决学术问题

该数据集有效应对了生物医学文本挖掘中数据稀缺与领域适配的挑战。它通过提供海量、结构化的标题与摘要文本，支撑了领域特定词嵌入的构建、医学实体关系的抽取以及文献自动分类等研究。其意义在于弥合通用语言模型与专业医学知识之间的鸿沟，为循证医学、药物发现等前沿课题提供了可靠的数据基础。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典工作。例如，BioBERT等预训练模型以其为关键语料进行领域适应训练，显著提升了生物医学命名实体识别等下游任务性能。同时，它也被整合入The Pile等大型复合语料库，支撑了GPT-Neo、GPT-J等开源大语言模型的开发，推动了可解释性医学人工智能的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集