five

FreedomIntelligence/ApolloCorpus

收藏
Hugging Face2024-09-13 更新2024-04-21 收录
下载链接:
https://hf-mirror.com/datasets/FreedomIntelligence/ApolloCorpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个多语言的医疗数据集,涵盖了英语、中文、法语、印地语、西班牙语、阿拉伯语等多种语言。数据集分为Pretrain和SFT两个部分,Pretrain部分包括医疗书籍、指南、论文、网页和维基百科等数据,SFT部分包括代码、通用、数学、医疗考试和医疗患者等数据。数据集的格式为JSON,包含文本和问答对两种类型。
提供机构:
FreedomIntelligence
原始信息汇总

数据集概述

数据集配置

  • config_name: pretrain_text
  • data_files:
    • split: medicalBook_en, medicalBook_zh, medicalGuideline_en, medicalPaper_en, medicalPaper_es, medicalPaper_fr, medicalPaper_zh, medicalWeb_en, medicalWeb_es, medicalWeb_zh, medicalWiki_en, medicalWiki_fr, medicalWiki_hi
    • path: train/pretrain/对应文件名.json

数据集内容

  • 数据类型: text
  • 语言: English (en), Chinese (zh), Spanish (es), French (fr), Hindi (hi)
  • 数据格式:
    • text: 字符串列表

      [ "string1", "string2", ... ]

许可证

  • license: apache-2.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作