DiaKG

arXiv2021-09-21 更新2024-06-21 收录

下载链接：

https://tianchi.aliyun.com/dataset/dataDetail?dataId=88836

下载链接

链接失效反馈

官方服务：

资源简介：

DiaKG是由妙健康和清华大学合作创建的高质量中文糖尿病知识图谱数据集，包含22,050个实体和6,890个关系。数据来源于41份权威中文期刊的糖尿病指南和共识，涵盖临床研究、药物使用等多个领域。创建过程中，除了医学专家外，还引入了AI专家参与标注，以提高数据集的可用性。该数据集旨在支持糖尿病知识图谱的构建，辅助临床诊断、药物推荐等AI应用，以解决糖尿病这一严重的公共卫生问题。

DiaKG is a high-quality Chinese diabetes knowledge graph dataset jointly created by MiaoHealth and Tsinghua University, containing 22,050 entities and 6,890 relationships. The dataset is sourced from 41 authoritative Chinese-language diabetes guidelines and consensuses, covering multiple fields such as clinical research and medication use. During its development, in addition to medical experts, AI experts were also invited to participate in annotation to improve the dataset's usability. This dataset aims to support the construction of diabetes knowledge graphs, assist AI applications including clinical diagnosis and medication recommendation, so as to address this serious public health issue of diabetes.

提供机构：

妙健康

创建时间：

2021-05-31

搜集汇总

数据集介绍

构建方式

DiaKG数据集的构建采用了多步骤的精细过程。首先，数据来源选择了41篇关于糖尿病的指南和共识，这些材料来自权威的中国期刊，涵盖了临床研究、药物使用、临床病例、诊断和治疗方法的广泛领域。接着，为了确保数据质量，使用了光学字符识别（OCR）工具将PDF文件转换为纯文本格式，并手动去除了非文本数据，如图表和表格。在OCR过程中，两位标注员逐字检查了结果，以避免误识别。然后，6位医学专业候选人和1位医学专家被雇佣并经过培训，以全面理解标注任务。在标注过程中，还邀请了2位人工智能专家同时进行标注，以便从模型的角度提供数据洞察。标注完成后，由医学专家进行质量控制，确保数据质量。最终，DiaKG数据集包含22,050个实体和6,890个关系，为特定领域的知识图谱构建提供了实证上的充足数据。

使用方法

DiaKG数据集的使用方法如下：首先，研究人员可以从数据集的官方网站下载数据集。然后，数据集可以用于命名实体识别（NER）和关系抽取（RE）等自然语言处理任务。在NER任务中，研究人员可以使用数据集中的实体类型和标注信息来训练和评估模型。在RE任务中，研究人员可以使用数据集中的关系类型和标注信息来训练和评估模型。此外，数据集还可以用于构建糖尿病知识图谱，为临床诊断、药物推荐和辅助诊断等人工智能应用提供支持。在使用数据集时，研究人员应确保遵守数据集的使用协议，并在研究成果中引用数据集的来源。

背景与挑战

背景概述

知识图谱（Knowledge Graph，KG）在建模结构化和概念性知识方面已被证明是有效的，尤其是在医疗领域。然而，高质量的标注语料库的缺乏仍然是推动这一任务研究和应用发展的关键问题。为了加速医学领域特定知识图谱的研究，DiaKG数据集应运而生，这是一个高质量的中文糖尿病知识图谱数据集，包含22,050个实体和6,890个关系。DiaKG的创建旨在解决医学领域缺乏专门针对糖尿病的标注数据集的问题，并通过引入医学专家和AI专家共同参与标注过程，提高了数据集的可用性和最终模型的效益。该数据集的发布旨在帮助研究人员构建用于临床诊断、药物推荐和辅助诊断的知识库，进一步探索糖尿病的奥秘。

当前挑战

DiaKG数据集的创建和利用面临多个挑战。首先，所解决的领域问题是糖尿病的复杂性和多样性，需要构建一个能够准确反映糖尿病相关知识和概念的数据集。其次，在构建过程中，数据集面临实体和关系标注的挑战，例如，实体可能根据上下文内容具有不同的类型，有些实体类型具有较长的跨度。此外，关系抽取任务中，实体之间可能存在较远的距离，增加了分类的难度。这些挑战表明，DiaKG对于当前大多数模型来说是具有挑战性的，需要采用更强大的模型和方法来应对。

常用场景

经典使用场景

DiaKG作为糖尿病知识图谱构建的中文数据集，其经典使用场景集中在医疗健康领域。通过 DiaKG，研究人员能够训练和评估命名实体识别（NER）和关系抽取（RE）模型，从而构建出结构化、可查询的糖尿病知识图谱。这些图谱可被应用于临床决策支持系统（CDSSs），辅助医生进行诊断和治疗，提高医疗服务的质量和效率。此外，DiaKG还可以用于开发面向患者的自诊工具，帮助患者根据症状评估自身健康状况。这些应用场景均体现了 DiaKG 在医疗健康领域的重要价值。

解决学术问题

DiaKG 的推出解决了当前医疗领域知识图谱构建中缺乏高质量中文标注数据集的问题。现有的研究往往依赖于英文数据集，这限制了中文医疗知识图谱的发展。DiaKG 的出现填补了这一空白，为中文医疗知识图谱的研究和应用提供了宝贵的数据资源。此外，DiaKG 中的实体和关系类型多样，涵盖了糖尿病的各个方面，为深入研究糖尿病的发病机制、治疗方法和并发症等提供了数据基础。这有助于推动医疗知识图谱领域的学术研究，并为相关模型的开发和应用提供支持。

实际应用

DiaKG 的实际应用场景广泛，包括但不限于：1. 临床决策支持：通过 DiaKG 构建的知识图谱可以辅助医生进行诊断和治疗，提高医疗服务的质量和效率；2. 患者自诊工具：DiaKG 可以用于开发面向患者的自诊工具，帮助患者根据症状评估自身健康状况，提高患者自我管理能力；3. 药物研发：DiaKG 中的药物信息和疾病关系可以为药物研发提供数据支持，加速新药的研发进程；4. 医疗政策制定：DiaKG 可以用于分析糖尿病的流行趋势和患者需求，为制定合理的医疗政策提供数据支持。这些实际应用场景体现了 DiaKG 在医疗健康领域的重要价值，有助于提高医疗服务水平，改善患者生活质量。

数据集最近研究