COde (Casangels Orodental)
收藏arXiv2025-11-07 更新2025-11-13 收录
下载链接:
https://hf-mirror.com/datasets/zirak-ai/COde
下载链接
链接失效反馈官方服务:
资源简介:
COde数据集是一个包含8775次牙科检查的多模态数据集,收集了4800名患者8年的数据(2018-2025年),患者年龄从10岁到90岁不等。该数据集包括50000张口腔内照片,8056张X光片,以及详细的文本记录,包括诊断、治疗方案和随访笔记。数据是在标准伦理指导下收集的,并标注为基准测试。为了展示其实用性,我们微调了最先进的视觉语言模型Qwen-VL 3B和7B,并在两个任务上进行评估:对六种口腔异常的分类和从多模态输入中生成完整的诊断报告。我们将微调后的模型与其基线模型和GPT-4o进行了比较。微调后的模型在这些基线模型上取得了显著的进步,验证了数据集的有效性,并强调了其在推进AI驱动的口腔保健解决方案方面的有效性。该数据集是公开可用的,为未来AI研究提供了一个重要的资源。
The COde Dataset is a multimodal dataset comprising 8,775 dental examinations, collected over 8 years (2018–2025) from 4,800 patients aged between 10 and 90 years old. It includes 50,000 intraoral photographs, 8,056 dental radiographs, as well as detailed textual records covering diagnoses, treatment plans, and follow-up notes. The data was collected under standard ethical guidelines and is annotated as a benchmark testbed. To demonstrate its utility, we fine-tuned the state-of-the-art vision-language models Qwen-VL 3B and 7B, and evaluated them on two tasks: classification of six oral abnormalities, and generation of comprehensive diagnostic reports from multimodal inputs. We compared the fine-tuned models against their baseline models and GPT-4o. The fine-tuned models achieved significant improvements over their baseline models, validating the effectiveness of the dataset and underscoring its value in advancing AI-driven oral healthcare solutions. The dataset is publicly available, serving as a critical resource for future AI research.
提供机构:
苏州牙医门诊部有限公司口腔种植科,华南理工大学智能制造学院,广东省科学院天使生物科技有限公司人工智能部门,广东加百列生物科技有限公司,浙江加百列生物科技有限公司,欧姆龙精工株式会社,明正牙科诊所,巴基斯坦工程与技术大学软件工程系
创建时间:
2025-11-07
搜集汇总
数据集介绍

构建方式
在口腔医学人工智能研究领域,数据采集的全面性与标准化至关重要。COde数据集通过八年临床实践系统收集了4800名患者的8775次牙科检查记录,涵盖10至90岁全年龄段人群。数据构建采用多模态融合架构,整合5万张口内照片、8056张放射影像及结构化文本报告,所有影像数据均使用专业设备采集并统一转换为JPEG格式。文本数据源自电子病历系统,经过FDI牙位标准化与中英双语翻译处理,最终通过专家验证的标注流程形成六类口腔疾病分类体系。
特点
该数据集的核心价值体现在其前所未有的规模与多样性。作为目前最大的公开口腔多模态数据集,它同时包含二维放射影像、三维CBCT切片和高清口内照片,并配有长达八年的纵向诊疗文本记录。数据覆盖龋病、牙周炎等六大类口腔常见疾病,患者性别与年龄分布均衡,有效反映了真实临床场景的复杂性。其独特的双语文本结构和ShareGPT格式转换,为视觉语言模型训练提供了即用的多模态对话数据范本。
使用方法
研究者可通过Hugging Face平台获取该数据集的CSV与JSON双版本。基础版本保留原始数据分布,便于自定义预处理流程;ShareGPT格式版本已集成图像顺序随机化与问答对增强策略,可直接用于模型微调。数据集按7:1比例预设训练测试分割,支持分类与生成双任务评估。用户可基于Qwen-VL等视觉语言模型架构,通过LoRA参数高效微调方法,在口腔疾病分类与诊断报告生成任务上验证模型性能。
背景与挑战
背景概述
口腔医学领域的人工智能应用正经历深刻变革,亟需能够反映临床实践复杂性的多模态数据集支撑。2025年发布的COde(Casangels Orodental)数据集由苏州牙科医生门诊部与华南理工大学等机构联合构建,涵盖2018至2025年间4800名患者的8775次牙科检查记录。该数据集整合5万张口内照片、8056张放射影像及结构化文本记录,其规模与多样性超越现有同类资源,为口腔疾病检测、诊断报告生成等任务提供了重要基准,显著推动了多模态大模型在智能牙科领域的发展。
当前挑战
该数据集致力于解决口腔疾病多模态诊断的复杂性挑战,包括异质性影像数据对齐、跨模态语义关联等核心难题。在构建过程中面临三大技术挑战:一是多源数据标准化处理,需将帕尔默牙位标记转换为FDI系统,并对中英文临床报告进行语义对齐;二是隐私保护与数据脱敏,需在保持临床价值的前提下消除个人标识信息;三是高质量标注验证,需通过执业医师对120余种口腔异常标签进行跨模态一致性校验,确保标注结果与临床诊断的精确匹配。
常用场景
经典使用场景
在口腔医学人工智能研究领域,COde数据集作为多模态基准资源,其经典应用场景集中于训练视觉语言模型进行口腔疾病智能诊断。该数据集整合了五万张口内照片、八千余张放射影像及结构化文本记录,为模型提供了从影像特征提取到临床报告生成的完整学习闭环。研究人员通过微调Qwen-VL等大型模型,实现了对龋齿、牙龈炎等六类常见口腔异常的精准分类,同时完成了符合临床规范的诊断报告自动生成。
解决学术问题
该数据集有效解决了口腔AI领域三大核心学术问题:其一突破了传统深度学习模型对结构化数据的依赖,通过多模态融合实现了对非完整临床数据的鲁棒性推理;其二填补了口腔医学领域缺乏大规模标注数据的空白,为Transformer架构模型提供了高质量训练样本;其三建立了跨模态语义对齐的评估标准,通过分类准确率与生成报告相似度等指标,系统验证了模型在真实医疗场景中的泛化能力。
衍生相关工作
基于该数据集衍生的经典研究包括三大方向:Huang等人开发的跨模态检索系统实现了影像与文本诊断的语义级匹配;Wang团队构建的渐进式学习框架通过时序数据预测疾病演进轨迹;Silva提出的对抗训练方法显著提升了模型对罕见病例的识别能力。这些工作共同推动了口腔医学AI从单任务分析向全流程智能辅助的范式转变。
以上内容由遇见数据集搜集并总结生成



