hwang2006/PUBMED_title_abstracts_2020_baseline

Name: hwang2006/PUBMED_title_abstracts_2020_baseline
Creator: hwang2006
Published: 2024-03-21 01:50:01
License: 暂无描述

Hugging Face2024-03-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/hwang2006/PUBMED_title_abstracts_2020_baseline

下载链接

链接失效反馈

官方服务：

资源简介：

该PUBMED数据集基于The-Pile-PubMed GitHub站点创建，并上传至Hugging Face。数据集包含meta和text两个特征，共有17,722,096行数据。用户可以通过提供的命令行步骤克隆、下载、解析和构建最终的语言模型数据集，并使用Hugging Face的datasets库在Python中加载该数据集。

提供机构：

hwang2006

原始信息汇总

PUBMED 数据集概述

数据集来源

该数据集基于 PubMed Abstract GitHub Site 创建，并上传至 Hugging Face。

数据集构建步骤

克隆 GitHub 仓库： bash git clone https://github.com/thoppe/The-Pile-PubMed.git cd The-Pile-PubMed/
执行数据集构建脚本： bash python P0_download_listing.py python P1_download_baseline.py python P2_parse.py python P3_build_final_LM_dataset.py

数据集加载

使用 datasets 库加载数据集： python from datasets import load_dataset pubmed_dataset = load_dataset("hwang2006/PUBMED_title_abstracts_2020_baseline", split="train")

数据集结构

数据集包含以下特征：
- meta：元数据
- text：文本数据
数据集行数：17722096

5,000+

优质数据集

54 个

任务类型

进入经典数据集