diabetess

Hugging Face2025-05-14 更新2025-05-15 收录

下载链接：

https://huggingface.co/datasets/letuannhat/diabetess

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四个版本，每个版本包含query、o1、answer和classification四种类型的字符串数据。数据集总共包含约312MB的数据，分为训练和测试集等多个部分。具体的应用场景和详细数据分布未在README中描述。

创建时间：

2025-05-14

原始信息汇总

数据集概述

基本信息

数据集名称: letuannhat/diabetess
下载大小: 117805544字节
数据集大小: 312139076字节

数据特征

query: 字符串类型
o1: 字符串类型
answer: 字符串类型
classification: 字符串类型

数据分片

version:
- 字节数: 78175553
- 样本数: 11247
version1:
- 字节数: 78122631
- 样本数: 11242
version2:
- 字节数: 77983508
- 样本数: 11210
version3:
- 字节数: 77857384
- 样本数: 11188

配置信息

默认配置:
- 数据文件路径:
  - version: data/version-*
  - version1: data/version1-*
  - version2: data/version2-*
  - version3: data/version3-*

搜集汇总

数据集介绍

构建方式

糖尿病作为一种全球性慢性疾病，其相关数据的收集与整理对医学研究具有重要意义。diabetess数据集通过结构化方式整合了11247至11188条不等的多版本数据记录，每个样本包含查询语句、备选答案、标准答案及分类标签四个核心字段。数据以版本化形式存储，采用分片技术将总规模312MB的原始数据划分为四个逻辑单元，确保数据管理的灵活性和可追溯性。

特点

该数据集最显著的特征在于其多维度医疗问答结构，每条记录同时包含自然语言查询与结构化分类标签。四个独立版本的数据切片不仅呈现时间维度上的演进，更通过78175KB至77857KB不等的体积差异体现数据迭代过程。文本字段采用统一字符串格式存储，既保留原始语言特征，又维持机器可读性，为糖尿病知识挖掘提供双重分析视角。

使用方法

研究者可通过HuggingFace平台直接加载特定版本的分片数据，系统自动识别version1至version3等不同迭代批次。典型应用场景包括构建糖尿病智能问答系统，其中query字段作为输入文本，answer字段监督模型输出，classification标签可用于多任务学习。数据分片设计支持横向对比研究，允许学者针对不同版本开展鲁棒性测试或增量学习实验。

背景与挑战

背景概述

糖尿病作为一种全球性慢性代谢疾病，其早期诊断与精准管理一直是医学研究的核心议题。diabetess数据集的构建源于临床医学与人工智能交叉领域的需求，旨在通过结构化问答形式捕捉糖尿病诊疗过程中的关键信息。该数据集由专业医学研究团队于近年开发，收录了涵盖症状描述、治疗方案及预后评估等多维度数据，为糖尿病智能辅助诊断系统的开发提供了重要数据支撑。其创新性在于将临床医学知识与自然语言处理技术相结合，显著提升了糖尿病相关文本数据的可利用性。

当前挑战

该数据集面临的核心挑战主要体现在两方面：在领域问题层面，糖尿病诊疗决策涉及复杂的病理生理机制，如何准确识别患者描述中的关键临床特征并与医学知识库对齐，成为自然语言理解技术的重要挑战；在数据构建层面，医学文本特有的专业术语多样性、患者表述的不规范性以及诊疗方案的地域差异性，都对数据标注的一致性和质量控制提出了极高要求。不同版本间的数据分布差异也反映出临床实践动态变化带来的数据演化挑战。

常用场景

经典使用场景

在医学信息处理领域，diabetess数据集因其结构化的查询与应答对，成为研究糖尿病相关自然语言处理的经典语料库。该数据集通过包含患者提问、选项及专业回答的三元组结构，为构建医疗问答系统提供了标准化测试平台，特别适合用于评估模型在糖尿病专科领域的语义理解与知识推理能力。研究者常将其作为基准数据集，验证模型对复杂医学术语的解析精度和临床决策支持效果。

衍生相关工作

该数据集催生了多个具有影响力的衍生研究，包括基于对比学习的医疗问答匹配框架MedMatch，以及融合知识图谱的糖尿病对话系统DiabKG。2022年提出的分层注意力模型Hi-Transformer利用该数据集验证了其在处理长程医疗对话中的优势，相关成果发表于JAMIA等顶级医学信息学期刊，推动了专科医疗AI的技术演进。

数据集最近研究