five

FreedomIntelligence/huatuo_knowledge_graph_qa

收藏
Hugging Face2023-07-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FreedomIntelligence/huatuo_knowledge_graph_qa
下载链接
链接失效反馈
官方服务:
资源简介:
我们基于医疗知识图谱构建了这个问答数据集,总共有798,444条数据,其中问题通过模板构建,答案则是知识图谱中的条目内容。

我们基于医疗知识图谱构建了这个问答数据集,总共有798,444条数据,其中问题通过模板构建,答案则是知识图谱中的条目内容。
提供机构:
FreedomIntelligence
原始信息汇总

Huatuo_knowledge_graph_qa 数据集概述

数据集描述

  • 许可证: Apache-2.0
  • 任务类别: 文本生成
  • 语言: 中文
  • 标签: 医疗
  • 大小类别: 100K<n<1M

数据集总结

本数据集基于医疗知识图谱构建,共包含798,444条数据。其中,问题通过模板方式构造,答案为知识图谱中的条目内容。

数据集创建

源数据

  • https://cpubmed.openi.org.cn/graph/wiki
  • https://github.com/zhihao-chen/QASystemOnMedicalGraph
  • https://github.com/baiyang2464/chatbot-base-on-Knowledge-Graph

引用信息

@misc{li2023huatuo26m, title={Huatuo-26M, a Large-scale Chinese Medical QA Dataset}, author={Jianquan Li and Xidong Wang and Xiangbo Wu and Zhiyi Zhang and Xiaolong Xu and Jie Fu and Prayag Tiwari and Xiang Wan and Benyou Wang}, year={2023}, eprint={2305.01526}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集以医疗知识图谱为基础,精心构建了包含798,444条数据的问答对。其构建过程主要依赖于模板生成技术,通过预设的模板生成多样化的问题,而答案则直接来源于知识图谱中的条目内容,确保了数据的真实性和准确性。
特点
该数据集的显著特点在于其专注于医疗领域,涵盖了广泛且深入的医学知识。通过模板生成的问题形式多样,能够有效覆盖多种医疗场景,而答案的直接引用自知识图谱,保证了信息的权威性和可靠性。
使用方法
该数据集适用于医疗领域的文本生成任务,尤其适合用于训练和评估问答系统。用户可以通过访问提供的GitHub仓库或相关论文,获取详细的使用指南和代码示例,以便更好地利用该数据集进行模型训练和优化。
背景与挑战
背景概述
在医疗领域,知识图谱的构建与问答系统的开发一直是推动智能化医疗发展的重要方向。FreedomIntelligence团队于2023年推出了基于医疗知识图谱的问答数据集Huatuo_knowledge_graph_qa,该数据集包含了798,444条数据,通过模板生成问题,并从知识图谱中提取答案。这一数据集的创建旨在提升医疗问答系统的准确性与实用性,为医疗领域的智能化应用提供了宝贵的资源。主要研究人员包括Jianquan Li、Xidong Wang等,他们的研究成果发表在arXiv上,题为《Huatuo-26M, a Large-scale Chinese Medical QA Dataset》,对中文医疗问答系统的研究具有重要影响。
当前挑战
该数据集在构建过程中面临多项挑战。首先,医疗领域的专业性和复杂性要求数据集必须具备高度的准确性和权威性,这需要在数据来源和处理过程中进行严格的筛选和验证。其次,如何通过模板生成多样化且具有代表性的问题,同时确保答案的准确性,是构建过程中的另一大挑战。此外,医疗知识图谱的动态更新特性也增加了数据集维护的难度,需要不断更新和扩充以适应医学知识的快速发展。这些挑战不仅影响了数据集的质量,也对后续的模型训练和应用提出了更高的要求。
常用场景
经典使用场景
在医疗领域,FreedomIntelligence/huatuo_knowledge_graph_qa数据集被广泛应用于构建和优化基于知识图谱的问答系统。该数据集通过模板生成的问题与知识图谱中的条目内容相结合,为医疗问答系统提供了丰富的训练数据。其经典使用场景包括但不限于:医疗咨询机器人、智能诊断助手以及医学教育辅助工具等,这些应用场景均依赖于高质量的问答数据来提升系统的准确性和用户体验。
实际应用
在实际应用中,FreedomIntelligence/huatuo_knowledge_graph_qa数据集被用于开发和部署多种医疗相关的人工智能服务。例如,医院和诊所可以利用该数据集训练的模型来构建智能客服系统,帮助患者快速获取医疗信息;制药公司和研究机构则可以利用这些数据进行药物知识管理和疾病相关信息的自动检索。这些应用不仅提高了医疗服务的效率,还为患者和专业人士提供了更加便捷的信息获取途径。
衍生相关工作
基于FreedomIntelligence/huatuo_knowledge_graph_qa数据集,研究者们开展了一系列相关工作,包括但不限于:开发更高效的医疗知识图谱构建算法、探索多轮对话中的知识推理机制、以及设计更加智能的问答模型。这些工作不仅推动了医疗问答系统的发展,也为其他领域的知识图谱应用提供了新的思路和方法。此外,该数据集还被用于多个国际会议和竞赛中,成为评估和比较不同问答系统性能的重要基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作