InMedData/Cardio_v2
收藏Hugging Face2024-03-12 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/InMedData/Cardio_v2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从PubMed收集的心脏相关论文的摘要,可用于预训练专注于心脏病学的语言模型。数据集通过PubMed API收集,基于心脏相关期刊的名称和心脏病学术语词汇表。数据来源包括PubMed和Wikipedia,关键词来源包括Scimago Journal & Country Rank、National Institutes of Health、The Texas Heart Institute和Aiken Physicians Alliance。数据集包含两个字段:论文标题和摘要。数据集结构为一个包含2761083行的训练集。
该数据集包含从PubMed收集的心脏相关论文的摘要,可用于预训练专注于心脏病学的语言模型。数据集通过PubMed API收集,基于心脏相关期刊的名称和心脏病学术语词汇表。数据来源包括PubMed和Wikipedia,关键词来源包括Scimago Journal & Country Rank、National Institutes of Health、The Texas Heart Institute和Aiken Physicians Alliance。数据集包含两个字段:论文标题和摘要。数据集结构为一个包含2761083行的训练集。
提供机构:
InMedData
原始信息汇总
数据集概述
数据集描述
- 内容: 该数据集包含从PubMed收集的心脏相关论文摘要,用于预训练专注于心脏病学的语言模型。
- 收集方式: 通过PubMed API,基于心脏病学相关期刊名称和术语词汇表进行数据收集。
数据来源
- PubMed: 提供生命科学、生物医学领域、健康心理学和健康福利相关的研究论文摘要,本数据集收集了与心脏相关的论文摘要。
关键词来源
- Scimago Journal & Country Rank: 使用SJR提供的心脏病学相关期刊列表作为关键词进行数据收集。
- National Institutes of Health: 使用NIH提供的心脏健康术语词汇表作为关键词进行数据收集。
- The Texas Heart Institute: 使用Texas Heart Institute提供的心脏信息中心术语词汇表作为关键词进行数据收集。
- Aiken Physicians Alliance: 使用Aiken Physicians Alliance提供的心脏病学术语词汇表作为关键词进行数据收集。
数据集字段
| 字段 | 数据类型 | 描述 |
|---|---|---|
| title | string | 论文标题 |
| abst | string | 论文摘要 |
数据集结构
- 训练集: 包含2761083条记录,特征包括title和abst。
使用示例
python from datasets import load_dataset
dataset = load_dataset("InMedData/Cardio_v2")
数据集联系
- 邮箱: khs1220@inmed-data.com



