five

FreedomIntelligence/huatuo_consultation_qa

收藏
Hugging Face2023-05-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FreedomIntelligence/huatuo_consultation_qa
下载链接
链接失效反馈
官方服务:
资源简介:
我们从一个医疗咨询网站收集了数据,包含了许多由医疗专家进行的在线咨询记录。每条记录是一个问答对:患者提出问题,医生回答问题。记录了医生的基本信息(包括姓名、医院组织和部门)。我们直接爬取了患者的问题和医生的答案作为问答对,得到了32,708,346对。随后,我们删除了包含特殊字符的问答对,并去除了重复的对。最终,我们得到了25,341,578个问答对。请注意,由于某些原因,我们无法直接提供文本数据,因此我们数据集中的答案部分是URL。如果您想使用文本数据,可以参考我们开源数据集的其他两个部分(huatuo_encyclopedia_qa、huatuo_knowledge_graph_qa),或者使用URL进行数据收集。

我们从一个医疗咨询网站收集了数据,包含了许多由医疗专家进行的在线咨询记录。每条记录是一个问答对:患者提出问题,医生回答问题。记录了医生的基本信息(包括姓名、医院组织和部门)。我们直接爬取了患者的问题和医生的答案作为问答对,得到了32,708,346对。随后,我们删除了包含特殊字符的问答对,并去除了重复的对。最终,我们得到了25,341,578个问答对。请注意,由于某些原因,我们无法直接提供文本数据,因此我们数据集中的答案部分是URL。如果您想使用文本数据,可以参考我们开源数据集的其他两个部分(huatuo_encyclopedia_qa、huatuo_knowledge_graph_qa),或者使用URL进行数据收集。
提供机构:
FreedomIntelligence
原始信息汇总

数据集概述

数据集名称

  • 名称: huatuo_consultation_qa

数据集描述

  • 语言: 中文
  • 类别: 医学
  • 任务类型: 文本生成
  • 数据规模: 1M<n<10M
  • 许可: Apache-2.0

数据集内容

  • 来源: 从医疗咨询网站收集的在线咨询记录,包含医疗专家的回答。
  • 结构: 每个记录为QA对,包括患者问题和医生回答。
  • 数据量: 原始数据包含32,708,346对QA,经过清洗后剩余25,341,578对QA。
  • 特殊说明: 由于某些原因,数据集的回答部分以URL形式提供,无法直接提供文本数据。

数据集使用

引用信息

@misc{li2023huatuo26m, title={Huatuo-26M, a Large-scale Chinese Medical QA Dataset}, author={Jianquan Li and Xidong Wang and Xiangbo Wu and Zhiyi Zhang and Xiaolong Xu and Jie Fu and Prayag Tiwari and Xiang Wan and Benyou Wang}, year={2023}, eprint={2305.01526}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作