five

InMedData/Cardio_v2

收藏
Hugging Face2024-03-12 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/InMedData/Cardio_v2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从PubMed收集的心脏相关论文的摘要,可用于预训练专注于心脏病学的语言模型。数据集通过PubMed API收集,基于心脏相关期刊的名称和心脏病学术语词汇表。数据来源包括PubMed和Wikipedia,关键词来源包括Scimago Journal & Country Rank、National Institutes of Health、The Texas Heart Institute和Aiken Physicians Alliance。数据集包含两个字段:论文标题和摘要。数据集结构为一个包含2761083行的训练集。

该数据集包含从PubMed收集的心脏相关论文的摘要,可用于预训练专注于心脏病学的语言模型。数据集通过PubMed API收集,基于心脏相关期刊的名称和心脏病学术语词汇表。数据来源包括PubMed和Wikipedia,关键词来源包括Scimago Journal & Country Rank、National Institutes of Health、The Texas Heart Institute和Aiken Physicians Alliance。数据集包含两个字段:论文标题和摘要。数据集结构为一个包含2761083行的训练集。
提供机构:
InMedData
原始信息汇总

数据集概述

数据集描述

  • 内容: 该数据集包含从PubMed收集的心脏相关论文摘要,用于预训练专注于心脏病学的语言模型。
  • 收集方式: 通过PubMed API,基于心脏病学相关期刊名称和术语词汇表进行数据收集。

数据来源

  • PubMed: 提供生命科学、生物医学领域、健康心理学和健康福利相关的研究论文摘要,本数据集收集了与心脏相关的论文摘要。

关键词来源

  • Scimago Journal & Country Rank: 使用SJR提供的心脏病学相关期刊列表作为关键词进行数据收集。
  • National Institutes of Health: 使用NIH提供的心脏健康术语词汇表作为关键词进行数据收集。
  • The Texas Heart Institute: 使用Texas Heart Institute提供的心脏信息中心术语词汇表作为关键词进行数据收集。
  • Aiken Physicians Alliance: 使用Aiken Physicians Alliance提供的心脏病学术语词汇表作为关键词进行数据收集。

数据集字段

字段 数据类型 描述
title string 论文标题
abst string 论文摘要

数据集结构

  • 训练集: 包含2761083条记录,特征包括title和abst。

使用示例

python from datasets import load_dataset

dataset = load_dataset("InMedData/Cardio_v2")

数据集联系

  • 邮箱: khs1220@inmed-data.com
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作