MMOral

Name: MMOral
Creator: 香港大学牙医学院
Published: 2025-09-11T16:39:08+08:00

arXiv2025-09-11 更新2025-09-13 收录

牙科影像分析

多模态AI

数据链接：

https://hf-mirror.com/datasets/OralGPT/MMOral-OPG-Bench 数据链接链接失效反馈

官方服务：

资源简介：

MMOral是一个针对全景X光片解读的大规模多模态指令数据集和基准。它包括20,563张带有1.3百万条指令跟随实例的注释图像，涵盖了多种任务类型，如属性提取、报告生成、视觉问答和基于图像的对话。此外，我们还提出了MMOral-Bench，这是一个涵盖牙科五个关键诊断维度的综合评估套件。我们评估了64个LVLMs在MMOral-Bench上的表现，发现即使是表现最好的模型GPT-4o，也只能达到41.45%的准确率，这揭示了当前模型在这一领域的显著局限性。为了促进该特定领域的发展，我们还提出了OralGPT，它使用我们精心策划的MMOral指令数据集对Qwen2.5-VL-7B进行监督微调。值得注意的是，一个SFT周期就为LVLMs带来了显著的性能提升，例如，OralGPT表现出24.73%的改进。MMOral和OralGPT都具有作为智能牙科关键基础的巨大潜力，并使牙科领域中的多模态AI系统更具临床意义。数据集、模型、基准和评估套件可在上述网址获取。

MMOral is a large-scale multimodal instruction dataset and benchmark for panoramic dental radiograph interpretation. It includes 20,563 annotated images paired with 1.3 million instruction-following instances, covering diverse task types such as attribute extraction, report generation, visual question answering (VQA), and image-based conversation. Additionally, we propose MMOral-Bench, a comprehensive evaluation suite covering five key diagnostic dimensions in dentistry. We evaluated the performance of 64 large vision-language models (LVLMs) on MMOral-Bench, and found that even the best-performing model GPT-4o only achieved an accuracy of 41.45%, revealing significant limitations of current models in this field. To promote the development of this specific domain, we further propose OralGPT, which performs supervised fine-tuning on Qwen2.5-VL-7B using our carefully curated MMOral instruction dataset. Notably, only one supervised fine-tuning (SFT) epoch brings significant performance improvements for LVLMs; for example, OralGPT demonstrates a 24.73% improvement. Both MMOral and OralGPT hold great potential as key foundations for intelligent dentistry, making multimodal AI systems in the dental field more clinically significant. The dataset, models, benchmark, and evaluation suite are available at the aforementioned URL.

提供机构：

香港大学牙医学院

创建时间：

2025-09-11

搜集汇总

数据集介绍

构建方式

MMOral数据集的构建采用多阶段流水线方法，首先从公开数据集TED3和Hoang Viet Do的研究中收集20,563张全景X光图像，并过滤重复样本。随后构建10个视觉专家模型，模拟口腔放射科医师的解读过程，识别49类解剖结构（如牙齿编号、病理发现和历史治疗），并通过后处理流程整合冗余检测结果并建立空间关联。最后基于生成的结构化定位描述和医学报告，采用模板和大型语言模型（GPT-4-turbo）生成单轮和多轮指令数据，涵盖属性提取、报告生成和视觉问答等任务。

特点

MMOral作为首个针对全景X光分析的大规模多模态指令数据集，包含20,563张图像和130万条指令实例，覆盖四大子数据集：MMOral-Attribute提供904K个解剖结构的空间坐标与类别信息；MMOral-Report包含41K条结构化定位描述和医学报告；MMOral-VQA提供965K条封闭式和开放式问答对；MMOral-Chat包含296K条医患多轮对话。其突出特点包括基于临床五维诊断框架（牙齿状况、病理发现、历史治疗、颌骨观察和临床总结）的系统性标注，以及通过多专家模型交叉验证和两阶段LLM报告生成确保的数据质量。

使用方法

该数据集支持监督微调（SFT）以增强视觉语言模型在口腔放射领域的性能，例如在Qwen2.5-VL-7B模型上使用MMOral指令数据微调后，在评估基准MMOral-Bench上的平均准确率提升24.73%。研究人员可加载图像与对应指令数据，通过标准训练框架（如LLaMA-Factory）进行模型训练。评估时需使用封闭式问题的准确率和开放式问题的GPT-4辅助评分指标，并整合VLMEvalKit框架进行标准化能力测试。

背景与挑战

背景概述

MMOral数据集由香港大学、新加坡国立大学及北京大学等机构联合研发，于2025年提出，旨在填补口腔放射学中全景X射线分析领域的空白。作为首个专为全景X射线解读定制的大规模多模态指令数据集与基准测试，其核心研究聚焦于通过视觉-语言模型提升牙科影像的智能诊断能力。该数据集包含20,563张标注图像及130万条指令实例，涵盖属性提取、报告生成、视觉问答及图像对话等任务类型，显著推动了牙科人工智能从通用医疗向专科化方向发展，为临床精准诊断提供了关键数据支撑。

当前挑战

MMOral需解决牙科影像中因解剖结构密集和病理特征细微导致的解读难题，其挑战包括：1）领域问题层面，需提升模型对牙齿编号、病理发现（如龋齿、根尖周病变）及历史治疗（如填充物、种植体）的细粒度识别能力；2）构建过程中，需整合多专家模型以消除冗余检测，并通过空间关系建立病理与牙齿编号的关联，同时采用两阶段LLM生成与修正流程确保医学报告质量，避免结构错误与幻觉内容。

常用场景

经典使用场景

在口腔放射学领域，全景X射线作为基础诊断工具，其密集解剖结构与细微病理特征对智能分析系统构成显著挑战。MMOral数据集通过整合20,563张标注图像与130万条指令实例，为多模态大语言模型提供标准化训练与评估环境，涵盖牙齿属性提取、报告生成、视觉问答及图像对话等核心任务，成为该领域首个大规模专业化基准。

衍生相关工作

基于MMOral衍生的经典工作包括OralGPT模型及其监督微调范式，该模型在Qwen2.5-VL-7B基础上通过指令微调实现24.73%的性能提升。后续研究进一步扩展至三维CBCT影像分析、多中心数据验证及实时诊断系统开发，推动口腔AI从单一模态向多模态、从静态分析向动态交互的技术演进。

数据集最近研究

MMOral

资源简介：

相关数据集