five

DiseaseKG|医疗知识图谱数据集|健康医疗数据集

收藏
github2024-05-16 更新2024-05-31 收录
医疗知识图谱
健康医疗
下载链接:
https://github.com/honeyandme/RQGQnASystem
下载链接
链接失效反馈
资源简介:
DiseaseKG数据集包含了疾病、药品、食物、检查项目、科目、在售药品、疾病症状、治疗方法等8类实体,以及相应的属性和11类关系,用于构建医疗领域的知识图谱。

The DiseaseKG dataset encompasses eight categories of entities, including diseases, medications, foods, examination items, subjects, available medications, disease symptoms, and treatment methods, along with their corresponding attributes and eleven types of relationships, designed for constructing knowledge graphs in the medical field.
创建时间:
2024-05-16
原始信息汇总

数据集概述

数据集来源

数据集内容

  • 知识图谱实体类型:包含8类实体,总计约44,656个实体。

    • Disease: 8808
    • Drug: 3828
    • Food: 4870
    • Check: 3353
    • Department: 54
    • Producer: 17,201
    • Symptom: 5,998
    • Cure: 544
  • 疾病实体属性类型:包含7类属性。

    • name
    • desc
    • cause
    • prevent
    • cure_lasttime
    • cured_prob
    • easy_get
  • 知识图谱关系类型:包含11类关系,总计约312,159个关系。

    • belongs_to
    • common_drug
    • do_eat
    • drugs_of
    • need_check
    • no_eat
    • recommand_drug
    • recommand_eat
    • has_symptom
    • acompany_with
    • cure_way

数据集应用

  • 用于构建基于RAG与大模型技术的医疗问答系统,通过精确的知识检索和问答生成,提升系统在医疗咨询中的性能。
  • 通过规则匹配的方式构建了一个实体识别数据集(NER),并实施了三种数据增强策略:实体替换、实体掩码和实体拼接,提升了RoBERTa模型的性能。
  • 采用知识图谱实现RAG技术,为大模型提供了更加精确的外部信息。

数据集创建与使用

  • 通过运行ner_data.py,根据data/medical_new_2.json中的文字,结合规则匹配技术,创建一个NER数据集,保存在data/ner_data_aug.txt中。
  • 使用ner_model.py定义了NER模型的网络架构和训练方式,采用了简单的BERT架构。

数据集优化

  • 通过优化知识图谱数据集文件的实体信息,使得构建出的知识图谱更加准确与科学。
  • 在实体名字上的优化,使得模型在构建的数据集上表现出极高的性能。

数据集部署

  • 使用Streamlit框架对模型进行部署,实现了高度封装,涵盖了注册与登录、大语言模型的选择、创建多个聊天窗口等多项功能。
AI搜集汇总
数据集介绍
main_image_url
构建方式
DiseaseKG数据集的构建基于RAG(Retrieval-Augmented Generation)技术与大模型技术,结合了知识图谱与BERT模型的命名实体识别(NER)能力。首先,通过规则匹配技术从医疗数据中提取实体信息,并采用实体替换、实体掩码和实体拼接等数据增强策略优化NER数据集。随后,利用大语言模型对知识图谱中的实体信息进行优化,确保知识图谱的准确性与科学性。最终,通过Neo4j数据库构建了一个包含44,656个实体和312,159个关系的医疗知识图谱。
使用方法
使用DiseaseKG数据集时,首先需要安装并配置Neo4j数据库,然后通过提供的Python脚本构建知识图谱。用户可以通过运行`build_up_graph.py`脚本,将`medical_new_2.json`数据集导入Neo4j,生成知识图谱。此外,用户还可以使用`ner_data.py`脚本生成NER数据集,并通过`ner_model.py`脚本训练或加载预训练的NER模型。最后,通过Streamlit框架部署的界面,用户可以进行意图识别、知识图谱查询和对话交互。
背景与挑战
背景概述
DiseaseKG数据集是由Open-KG平台提供,并由刘焕勇等研究人员在RAGOnMedicalKG和QASystemOnMedicalKG项目的基础上进一步开发和优化的。该数据集主要用于构建基于RAG(Retrieval-Augmented Generation)技术的医疗问答系统,旨在通过知识图谱与大语言模型的结合,提升医疗咨询的准确性和可靠性。DiseaseKG数据集包含了丰富的医疗实体和关系信息,涵盖了疾病、药品、食物、检查项目等8类实体,共计约4.4万个实体和31万条关系。该数据集的构建不仅为医疗领域的知识图谱研究提供了重要资源,还为大模型在医疗场景中的应用奠定了基础。
当前挑战
DiseaseKG数据集在构建过程中面临多项挑战。首先,医疗领域的知识图谱构建需要处理大量的专业术语和复杂的实体关系,确保数据的准确性和完整性。其次,数据增强技术的应用,如实体替换、实体掩码和实体拼接,虽然提升了模型的性能,但也增加了数据处理的复杂性。此外,意图识别的准确性依赖于大语言模型的性能,如何在减少人工成本的同时保证识别的准确性是一个重要挑战。最后,知识图谱的查询效率和系统的实时响应能力也是需要优化的关键问题。
常用场景
经典使用场景
DiseaseKG数据集在医疗问答系统中展现了其经典应用场景,通过构建基于知识图谱的医疗问答系统,结合BERT的命名实体识别和34b大模型的意图识别,实现了精确的知识检索和问答生成。该系统能够有效提升医疗咨询的准确性和效率,特别是在处理复杂医疗查询时,能够提供详尽且可靠的回答。
解决学术问题
DiseaseKG数据集解决了医疗领域中大模型应用的可靠性问题,特别是在医疗知识图谱的构建和优化方面。通过引入知识图谱技术,数据集不仅提升了实体识别的准确性,还通过数据增强策略显著提高了模型的性能,如RoBERTa模型的F1分数从96.77%提升至97.40%。此外,该数据集还通过Prompt设计减少了人工成本,确保了意图识别的准确性,为医疗领域的智能化研究提供了有力支持。
实际应用
在实际应用中,DiseaseKG数据集被广泛用于构建智能医疗问答系统,这些系统能够为患者和医疗专业人员提供即时的医疗咨询服务。通过知识图谱的精确检索和问答生成,系统能够快速响应用户的查询,提供包括疾病信息、药物推荐、饮食建议等在内的全方位医疗指导。此外,该数据集还支持医疗教育平台的开发,帮助医学生和初级医生快速获取专业知识。
数据集最近研究
最新研究方向
在医疗领域,DiseaseKG数据集的最新研究方向主要集中在知识图谱与大语言模型的深度融合上。通过结合RAG(Retrieval-Augmented Generation)技术与大模型,研究者们致力于提升医疗问答系统的精确性和可靠性。这一方向不仅优化了知识图谱的构建过程,通过实体识别和数据增强策略提高了模型的性能,还通过Prompt设计和上下文学习减少了人工成本,实现了高效的意图识别。此外,未来研究可能探索NL2Cyhper技术,以进一步简化查询过程,充分利用知识图谱的丰富数据,推动医疗智能化的前沿发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

HUSTgearbox

This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research

github 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

573,264张试卷&练习册&答题卡采集数据【数据堂】

573,264张试卷&练习册&答题卡采集数据。数据包含35,823张试卷、457,970张练习册、79,471张答题卡。数据涵盖多种题型、多种学科、多种类型、多个年级。采集设备为手机、扫描仪。数据可用于智能判卷、作业辅导等任务。我们严格遵循数据保护法规和隐私规定,确保数据采集、存储和使用的过程中维护用户的隐私和合法权益,所有数据均遵循GDPR, CCPA, PIPL

OpenDataLab 收录