FreedomIntelligence/huatuo_consultation_qa
收藏Hugging Face2023-05-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FreedomIntelligence/huatuo_consultation_qa
下载链接
链接失效反馈官方服务:
资源简介:
我们从一个医疗咨询网站收集了数据,包含了许多由医疗专家进行的在线咨询记录。每条记录是一个问答对:患者提出问题,医生回答问题。记录了医生的基本信息(包括姓名、医院组织和部门)。我们直接爬取了患者的问题和医生的答案作为问答对,得到了32,708,346对。随后,我们删除了包含特殊字符的问答对,并去除了重复的对。最终,我们得到了25,341,578个问答对。请注意,由于某些原因,我们无法直接提供文本数据,因此我们数据集中的答案部分是URL。如果您想使用文本数据,可以参考我们开源数据集的其他两个部分(huatuo_encyclopedia_qa、huatuo_knowledge_graph_qa),或者使用URL进行数据收集。
我们从一个医疗咨询网站收集了数据,包含了许多由医疗专家进行的在线咨询记录。每条记录是一个问答对:患者提出问题,医生回答问题。记录了医生的基本信息(包括姓名、医院组织和部门)。我们直接爬取了患者的问题和医生的答案作为问答对,得到了32,708,346对。随后,我们删除了包含特殊字符的问答对,并去除了重复的对。最终,我们得到了25,341,578个问答对。请注意,由于某些原因,我们无法直接提供文本数据,因此我们数据集中的答案部分是URL。如果您想使用文本数据,可以参考我们开源数据集的其他两个部分(huatuo_encyclopedia_qa、huatuo_knowledge_graph_qa),或者使用URL进行数据收集。
提供机构:
FreedomIntelligence
原始信息汇总
数据集概述
数据集名称
- 名称: huatuo_consultation_qa
数据集描述
- 语言: 中文
- 类别: 医学
- 任务类型: 文本生成
- 数据规模: 1M<n<10M
- 许可: Apache-2.0
数据集内容
- 来源: 从医疗咨询网站收集的在线咨询记录,包含医疗专家的回答。
- 结构: 每个记录为QA对,包括患者问题和医生回答。
- 数据量: 原始数据包含32,708,346对QA,经过清洗后剩余25,341,578对QA。
- 特殊说明: 由于某些原因,数据集的回答部分以URL形式提供,无法直接提供文本数据。
数据集使用
- 建议: 如需使用文本数据,可参考其他两个开源数据集:huatuo_encyclopedia_qa 和 huatuo_knowledge_graph_qa。
引用信息
@misc{li2023huatuo26m, title={Huatuo-26M, a Large-scale Chinese Medical QA Dataset}, author={Jianquan Li and Xidong Wang and Xiangbo Wu and Zhiyi Zhang and Xiaolong Xu and Jie Fu and Prayag Tiwari and Xiang Wan and Benyou Wang}, year={2023}, eprint={2305.01526}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



