DiseaseKG|医疗知识图谱数据集|健康医疗数据集
收藏数据集概述
数据集来源
- 数据集来源于Open-KG。
数据集内容
-
知识图谱实体类型:包含8类实体,总计约44,656个实体。
- Disease: 8808
- Drug: 3828
- Food: 4870
- Check: 3353
- Department: 54
- Producer: 17,201
- Symptom: 5,998
- Cure: 544
-
疾病实体属性类型:包含7类属性。
- name
- desc
- cause
- prevent
- cure_lasttime
- cured_prob
- easy_get
-
知识图谱关系类型:包含11类关系,总计约312,159个关系。
- belongs_to
- common_drug
- do_eat
- drugs_of
- need_check
- no_eat
- recommand_drug
- recommand_eat
- has_symptom
- acompany_with
- cure_way
数据集应用
- 用于构建基于RAG与大模型技术的医疗问答系统,通过精确的知识检索和问答生成,提升系统在医疗咨询中的性能。
- 通过规则匹配的方式构建了一个实体识别数据集(NER),并实施了三种数据增强策略:实体替换、实体掩码和实体拼接,提升了RoBERTa模型的性能。
- 采用知识图谱实现RAG技术,为大模型提供了更加精确的外部信息。
数据集创建与使用
- 通过运行
ner_data.py
,根据data/medical_new_2.json
中的文字,结合规则匹配技术,创建一个NER数据集,保存在data/ner_data_aug.txt
中。 - 使用
ner_model.py
定义了NER模型的网络架构和训练方式,采用了简单的BERT架构。
数据集优化
- 通过优化知识图谱数据集文件的实体信息,使得构建出的知识图谱更加准确与科学。
- 在实体名字上的优化,使得模型在构建的数据集上表现出极高的性能。
数据集部署
- 使用Streamlit框架对模型进行部署,实现了高度封装,涵盖了注册与登录、大语言模型的选择、创建多个聊天窗口等多项功能。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
HUSTgearbox
This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research
github 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
573,264张试卷&练习册&答题卡采集数据【数据堂】
573,264张试卷&练习册&答题卡采集数据。数据包含35,823张试卷、457,970张练习册、79,471张答题卡。数据涵盖多种题型、多种学科、多种类型、多个年级。采集设备为手机、扫描仪。数据可用于智能判卷、作业辅导等任务。我们严格遵循数据保护法规和隐私规定,确保数据采集、存储和使用的过程中维护用户的隐私和合法权益,所有数据均遵循GDPR, CCPA, PIPL
OpenDataLab 收录