five

hwang2006/PUBMED_title_abstracts_2020_baseline

收藏
Hugging Face2024-03-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hwang2006/PUBMED_title_abstracts_2020_baseline
下载链接
链接失效反馈
官方服务:
资源简介:
该PUBMED数据集基于The-Pile-PubMed GitHub站点创建,并上传至Hugging Face。数据集包含meta和text两个特征,共有17,722,096行数据。用户可以通过提供的命令行步骤克隆、下载、解析和构建最终的语言模型数据集,并使用Hugging Face的datasets库在Python中加载该数据集。

该PUBMED数据集基于The-Pile-PubMed GitHub站点创建,并上传至Hugging Face。数据集包含meta和text两个特征,共有17,722,096行数据。用户可以通过提供的命令行步骤克隆、下载、解析和构建最终的语言模型数据集,并使用Hugging Face的datasets库在Python中加载该数据集。
提供机构:
hwang2006
原始信息汇总

PUBMED 数据集概述

数据集来源

数据集构建步骤

  1. 克隆 GitHub 仓库: bash git clone https://github.com/thoppe/The-Pile-PubMed.git cd The-Pile-PubMed/

  2. 执行数据集构建脚本: bash python P0_download_listing.py python P1_download_baseline.py python P2_parse.py python P3_build_final_LM_dataset.py

数据集加载

  • 使用 datasets 库加载数据集: python from datasets import load_dataset pubmed_dataset = load_dataset("hwang2006/PUBMED_title_abstracts_2020_baseline", split="train")

数据集结构

  • 数据集包含以下特征:
    • meta:元数据
    • text:文本数据
  • 数据集行数:17722096
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作