FreedomIntelligence/ApolloCorpus
收藏Hugging Face2024-09-13 更新2024-04-21 收录
下载链接:
https://hf-mirror.com/datasets/FreedomIntelligence/ApolloCorpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多语言的医疗数据集,涵盖了英语、中文、法语、印地语、西班牙语、阿拉伯语等多种语言。数据集分为Pretrain和SFT两个部分,Pretrain部分包括医疗书籍、指南、论文、网页和维基百科等数据,SFT部分包括代码、通用、数学、医疗考试和医疗患者等数据。数据集的格式为JSON,包含文本和问答对两种类型。
提供机构:
FreedomIntelligence
原始信息汇总
数据集概述
数据集配置
- config_name: pretrain_text
- data_files:
- split: medicalBook_en, medicalBook_zh, medicalGuideline_en, medicalPaper_en, medicalPaper_es, medicalPaper_fr, medicalPaper_zh, medicalWeb_en, medicalWeb_es, medicalWeb_zh, medicalWiki_en, medicalWiki_fr, medicalWiki_hi
- path: train/pretrain/对应文件名.json
数据集内容
- 数据类型: text
- 语言: English (en), Chinese (zh), Spanish (es), French (fr), Hindi (hi)
- 数据格式:
-
text: 字符串列表
[ "string1", "string2", ... ]
-
许可证
- license: apache-2.0



