DiseaseKG

github2024-05-16 更新2024-05-31 收录

下载链接：

https://github.com/honeyandme/RQGQnASystem

下载链接

链接失效反馈

资源简介：

DiseaseKG数据集包含了疾病、药品、食物、检查项目、科目、在售药品、疾病症状、治疗方法等8类实体，以及相应的属性和11类关系，用于构建医疗领域的知识图谱。

The DiseaseKG dataset encompasses eight categories of entities, including diseases, medications, foods, examination items, subjects, available medications, disease symptoms, and treatment methods, along with their corresponding attributes and eleven types of relationships, designed for constructing knowledge graphs in the medical field.

创建时间：

2024-05-16

原始信息汇总

数据集概述

数据集来源

数据集来源于Open-KG。

数据集内容

知识图谱实体类型：包含8类实体，总计约44,656个实体。
- Disease: 8808
- Drug: 3828
- Food: 4870
- Check: 3353
- Department: 54
- Producer: 17,201
- Symptom: 5,998
- Cure: 544
疾病实体属性类型：包含7类属性。
- name
- desc
- cause
- prevent
- cure_lasttime
- cured_prob
- easy_get
知识图谱关系类型：包含11类关系，总计约312,159个关系。
- belongs_to
- common_drug
- do_eat
- drugs_of
- need_check
- no_eat
- recommand_drug
- recommand_eat
- has_symptom
- acompany_with
- cure_way

数据集应用

用于构建基于RAG与大模型技术的医疗问答系统，通过精确的知识检索和问答生成，提升系统在医疗咨询中的性能。
通过规则匹配的方式构建了一个实体识别数据集（NER），并实施了三种数据增强策略：实体替换、实体掩码和实体拼接，提升了RoBERTa模型的性能。
采用知识图谱实现RAG技术，为大模型提供了更加精确的外部信息。

数据集创建与使用

通过运行ner_data.py，根据data/medical_new_2.json中的文字，结合规则匹配技术，创建一个NER数据集，保存在data/ner_data_aug.txt中。
使用ner_model.py定义了NER模型的网络架构和训练方式，采用了简单的BERT架构。

数据集优化

通过优化知识图谱数据集文件的实体信息，使得构建出的知识图谱更加准确与科学。
在实体名字上的优化，使得模型在构建的数据集上表现出极高的性能。

数据集部署

使用Streamlit框架对模型进行部署，实现了高度封装，涵盖了注册与登录、大语言模型的选择、创建多个聊天窗口等多项功能。

AI搜集汇总

数据集介绍

构建方式

DiseaseKG数据集的构建基于RAG（Retrieval-Augmented Generation）技术与大模型技术，结合了知识图谱与BERT模型的命名实体识别（NER）能力。首先，通过规则匹配技术从医疗数据中提取实体信息，并采用实体替换、实体掩码和实体拼接等数据增强策略优化NER数据集。随后，利用大语言模型对知识图谱中的实体信息进行优化，确保知识图谱的准确性与科学性。最终，通过Neo4j数据库构建了一个包含44,656个实体和312,159个关系的医疗知识图谱。

使用方法

使用DiseaseKG数据集时，首先需要安装并配置Neo4j数据库，然后通过提供的Python脚本构建知识图谱。用户可以通过运行`build_up_graph.py`脚本，将`medical_new_2.json`数据集导入Neo4j，生成知识图谱。此外，用户还可以使用`ner_data.py`脚本生成NER数据集，并通过`ner_model.py`脚本训练或加载预训练的NER模型。最后，通过Streamlit框架部署的界面，用户可以进行意图识别、知识图谱查询和对话交互。

背景与挑战

背景概述

DiseaseKG数据集是由Open-KG平台提供，并由刘焕勇等研究人员在RAGOnMedicalKG和QASystemOnMedicalKG项目的基础上进一步开发和优化的。该数据集主要用于构建基于RAG（Retrieval-Augmented Generation）技术的医疗问答系统，旨在通过知识图谱与大语言模型的结合，提升医疗咨询的准确性和可靠性。DiseaseKG数据集包含了丰富的医疗实体和关系信息，涵盖了疾病、药品、食物、检查项目等8类实体，共计约4.4万个实体和31万条关系。该数据集的构建不仅为医疗领域的知识图谱研究提供了重要资源，还为大模型在医疗场景中的应用奠定了基础。

当前挑战

DiseaseKG数据集在构建过程中面临多项挑战。首先，医疗领域的知识图谱构建需要处理大量的专业术语和复杂的实体关系，确保数据的准确性和完整性。其次，数据增强技术的应用，如实体替换、实体掩码和实体拼接，虽然提升了模型的性能，但也增加了数据处理的复杂性。此外，意图识别的准确性依赖于大语言模型的性能，如何在减少人工成本的同时保证识别的准确性是一个重要挑战。最后，知识图谱的查询效率和系统的实时响应能力也是需要优化的关键问题。

常用场景

经典使用场景

DiseaseKG数据集在医疗问答系统中展现了其经典应用场景，通过构建基于知识图谱的医疗问答系统，结合BERT的命名实体识别和34b大模型的意图识别，实现了精确的知识检索和问答生成。该系统能够有效提升医疗咨询的准确性和效率，特别是在处理复杂医疗查询时，能够提供详尽且可靠的回答。

解决学术问题

DiseaseKG数据集解决了医疗领域中大模型应用的可靠性问题，特别是在医疗知识图谱的构建和优化方面。通过引入知识图谱技术，数据集不仅提升了实体识别的准确性，还通过数据增强策略显著提高了模型的性能，如RoBERTa模型的F1分数从96.77%提升至97.40%。此外，该数据集还通过Prompt设计减少了人工成本，确保了意图识别的准确性，为医疗领域的智能化研究提供了有力支持。

实际应用

在实际应用中，DiseaseKG数据集被广泛用于构建智能医疗问答系统，这些系统能够为患者和医疗专业人员提供即时的医疗咨询服务。通过知识图谱的精确检索和问答生成，系统能够快速响应用户的查询，提供包括疾病信息、药物推荐、饮食建议等在内的全方位医疗指导。此外，该数据集还支持医疗教育平台的开发，帮助医学生和初级医生快速获取专业知识。

数据集最近研究