five

FreedomIntelligence/huatuo_encyclopedia_qa

收藏
Hugging Face2023-05-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FreedomIntelligence/huatuo_encyclopedia_qa
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含364,420条医疗问答数据,其中一些数据包含不同形式的多个问题。数据来源包括从纯文本(如医学百科全书和医学文章)中提取的医疗问答对,以及从中文维基百科和Qianwen Health网站收集的医学文章。数据集的语言为中文,适用于文本生成任务,且数据规模在100K到1M之间。

该数据集包含364,420条医疗问答数据,其中一些数据包含不同形式的多个问题。数据来源包括从纯文本(如医学百科全书和医学文章)中提取的医疗问答对,以及从中文维基百科和Qianwen Health网站收集的医学文章。数据集的语言为中文,适用于文本生成任务,且数据规模在100K到1M之间。
提供机构:
FreedomIntelligence
原始信息汇总

数据集概述

数据集名称

Huatuo_encyclopedia_qa

数据集描述

数据集摘要

本数据集包含364,420条医疗问答数据,部分数据包含多种不同方式的问题。数据来源于中文维基百科的8,699条疾病百科条目和2,736条药物百科条目,以及从Qianwen Health网站爬取的226,432篇高质量医疗文章。

数据集创建

源数据

  • 中文维基百科:https://zh.wikipedia.org/wiki/
  • Qianwen Health网站:https://51zyzy.com/

数据集属性

  • 许可证: Apache-2.0
  • 任务类别: 文本生成
  • 语言: 中文
  • 标签: 医疗
  • 大小类别: 100K<n<1M
搜集汇总
数据集介绍
main_image_url
构建方式
在医学问答领域,Huatuo_encyclopedia_qa数据集的构建采取了对中文维基百科中的疾病和药物词条进行摘录,以及从Qianwen Health网站爬取高质量医学文章的方式。具体而言,该数据集从中文维基百科中收集了8,699条疾病词条和2,736条药物词条,同时爬取了226,432篇医学文章,从中提取出364,420个医疗问答对,某些问答对包含多种不同表述方式的提问。
特点
Huatuo_encyclopedia_qa数据集的特点在于,它是一个大规模的中文医疗问答数据集,涵盖了丰富的医疗信息。数据集不仅包含了结构化的问答对,而且问题的多样性能够更好地模拟实际应用场景中的用户提问。此外,该数据集遵循Apache-2.0协议,开放给研究者和开发者使用,有利于推动医疗自然语言处理领域的研究。
使用方法
使用Huatuo_encyclopedia_qa数据集,研究者可以将其作为训练和评估医疗问答系统的基准数据。数据集可以通过其GitHub仓库获取,并且使用前需遵守Apache-2.0协议。具体使用时,用户可以依据数据集提供的问答对进行模型训练,同时,数据集中的多形式提问可以用于模型的泛化能力测试,以确保系统在实际应用中具有更好的性能表现。
背景与挑战
背景概述
在医疗问答领域,构建一个大规模且高质量的中文医疗问答数据集至关重要。Huatuo_encyclopedia_qa数据集便是在此背景下应运而生,由Jianquan Li等研究人员于2023年创建。该数据集源于对中国维基百科医药词条及Qianwen Health网站高质量医学文章的整理,共包含364,420条医疗问答对,旨在推动中文医疗自然语言处理技术的发展,对医学信息检索、智能问答等领域产生了显著影响。
当前挑战
数据集构建过程中,研究人员面临着如何确保数据质量与准确性的挑战,尤其是在处理医学这一专业性极强的领域。此外,数据集在解决中文医疗问答问题的同时,还需克服数据采集的合法性、隐私保护等伦理问题。构建过程中的技术挑战包括对大规模文本数据的有效处理与整合,以及如何设计能够准确反映医疗问答多样性的数据结构。
常用场景
经典使用场景
在自然语言处理领域,尤其是中文问答系统的构建与优化中,Huatuo_encyclopedia_qa数据集扮演着至关重要的角色。该数据集以其丰富的医学问答对,为模型训练提供了坚实基础,使得问答系统能够准确理解和回应医学相关咨询。
实际应用
在实际应用层面,该数据集的应用场景广泛,包括但不限于在线医疗咨询、智能医疗助手以及医疗信息管理系统。它通过提供准确的医学知识问答,极大地提升了医疗服务的效率与质量。
衍生相关工作
基于Huatuo_encyclopedia_qa数据集,学术界衍生出了一系列相关研究工作,如医学知识图谱构建、医学文本挖掘以及医疗问答系统的改进。这些工作进一步推动了医学信息处理技术的发展,对医疗健康领域的智能化有着深远的影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作