five

DavidLanz/medical_instruction

收藏
Hugging Face2023-10-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DavidLanz/medical_instruction
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为medical_finetune_tw.json,总共有2.06百万条数据,来源于四个不同的数据集:1) 来自Chinese Medical Dialogue Dataset的六个医疗部门的医疗咨询数据,共79万条;2) 来自huatuo_encyclopedia_qa的在线医学百科全书数据,共36万条;3) 来自huatuo_knowledge_graph_qa的医学知识图谱数据,共79万条;4) 来自Kent0n-Li/ChatDoctor的英文医疗咨询对话数据,共11万条。这些数据被合并成一个总共有1.95百万条的数据集。

This dataset comprises a total of 2.06 million entries and is sourced from various sources, including: 1. Six medical department medical inquiry datasets from the [Chinese Medical Dialogue Dataset](https://github.com/Toyhom/Chinese-medical-dialogue-data), totaling 790,000 entries. 2. An online medical encyclopedia dataset, [huatuo_encyclopedia_qa](https://huggingface.co/datasets/FreedomIntelligence/huatuo_encyclopedia_qa), with 360,000 entries. 3. A medical knowledge graph dataset, [huatuo_knowledge_graph_qa](https://huggingface.co/datasets/FreedomIntelligence/huatuo_knowledge_graph_qa), with 790,000 entries. These three parts are merged, resulting in a dataset with a total of 1.95 million entries. 4. English medical inquiry dialogue data from [Kent0n-Li/ChatDoctor](https://github.com/Kent0n-Li/ChatDoctor), which includes data from HealthCareMagic-100k and GenMedGPT-5k datasets, totaling 110,000 entries.
提供机构:
DavidLanz
原始信息汇总

数据集概述

数据集名称

  • medical_finetune_tw.json

数据集描述

  • 该数据集包含总计206万条数据,来源包括:
    1. 来自Chinese Medical Dialogue Dataset的六个医疗部门医疗咨询数据集,共计79万条数据。
    2. 在线医疗百科数据集huatuo_encyclopedia_qa,包含36万条数据。
    3. 医疗知识图谱数据集huatuo_knowledge_graph_qa,包含79万条数据。这三部分合并后,形成总计195万条数据的数据集。
    4. 来自Kent0n-Li/ChatDoctor的英文医疗咨询对话数据,包括HealthCareMagic-100k和GenMedGPT-5k数据集,共计11万条数据。

数据集标签

  • text-generation

数据集大小

  • 1M<n<10M

语言

  • 中文
  • 英文

任务类别

  • text-generation
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作