hwang2006/PUBMED_title_abstracts_2020_baseline
收藏Hugging Face2024-03-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hwang2006/PUBMED_title_abstracts_2020_baseline
下载链接
链接失效反馈官方服务:
资源简介:
该PUBMED数据集基于The-Pile-PubMed GitHub站点创建,并上传至Hugging Face。数据集包含meta和text两个特征,共有17,722,096行数据。用户可以通过提供的命令行步骤克隆、下载、解析和构建最终的语言模型数据集,并使用Hugging Face的datasets库在Python中加载该数据集。
该PUBMED数据集基于The-Pile-PubMed GitHub站点创建,并上传至Hugging Face。数据集包含meta和text两个特征,共有17,722,096行数据。用户可以通过提供的命令行步骤克隆、下载、解析和构建最终的语言模型数据集,并使用Hugging Face的datasets库在Python中加载该数据集。
提供机构:
hwang2006
原始信息汇总
PUBMED 数据集概述
数据集来源
- 该数据集基于 PubMed Abstract GitHub Site 创建,并上传至 Hugging Face。
数据集构建步骤
-
克隆 GitHub 仓库: bash git clone https://github.com/thoppe/The-Pile-PubMed.git cd The-Pile-PubMed/
-
执行数据集构建脚本: bash python P0_download_listing.py python P1_download_baseline.py python P2_parse.py python P3_build_final_LM_dataset.py
数据集加载
- 使用
datasets库加载数据集: python from datasets import load_dataset pubmed_dataset = load_dataset("hwang2006/PUBMED_title_abstracts_2020_baseline", split="train")
数据集结构
- 数据集包含以下特征:
meta:元数据text:文本数据
- 数据集行数:17722096



