five

TCM-Tongue

收藏
arXiv2025-07-24 更新2025-08-13 收录
下载链接:
https://github.com/btbuIntelliSense/Intelligent-tongue-diagnosis-detection-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
TCM-Tongue是一个专门用于人工智能辅助中医舌诊的标准化舌像数据集,包含6719张在标准化条件下捕获的高质量图像,并标注了20种病理症状类别(平均每张图像有2.54个经过临床验证的标签,所有标签均由持有执照的中医执业医师验证)。数据集支持多种标注格式(COCO、TXT、XML),以方便广泛使用,并使用九种深度学习模型进行了基准测试,以展示其在人工智能开发中的实用性。该资源为推进可靠的中医计算工具提供了关键基础,填补了该领域的数据短缺,并通过标准化、高质量的诊断数据促进了人工智能在研究和临床实践中的整合。

TCM-Tongue is a standardized tongue image dataset specifically designed for AI-assisted traditional Chinese medicine (TCM) tongue diagnosis. It contains 6,719 high-quality images captured under standardized conditions, annotated with 20 pathological symptom categories. On average, each image carries 2.54 clinically validated labels, all verified by licensed practicing TCM physicians. The dataset supports multiple annotation formats (COCO, TXT, XML) to facilitate widespread usage, and has been benchmarked using nine deep learning models to demonstrate its practicality in AI development. This resource provides a critical foundation for advancing reliable TCM computational tools, fills the data gap in this field, and promotes the integration of artificial intelligence in research and clinical practice through standardized, high-quality diagnostic data.
提供机构:
北京工业大学计算机与人工智能学院, 中国中医科学院西苑医院, 北京大学人民医院
创建时间:
2025-07-24
搜集汇总
数据集介绍
main_image_url
构建方式
TCM-Tongue数据集的构建采用了标准化的舌象采集系统和专家标注框架。研究团队开发了基于PyQT框架的专用舌象成像系统,配备同步双摄像头阵列和光谱校准照明模块,确保在D65标准光源下获得分辨率达100μm的高质量图像。所有图像由资深中医医师按照20种病理症状类别进行多标签标注,平均每张图像包含2.54个临床验证标签,并采用PASCAL VOC XML和YOLO TXT双格式存储。数据集通过分层随机抽样划分为训练集(80%)、验证集(10%)和测试集(10%),并特别包含10%的疑难病例以增强模型泛化能力。
特点
该数据集包含6,719张标准化舌象图像,涵盖中医诊断中20种典型病理特征,如舌色(红舌、紫舌)、舌苔(白苔、黄苔)及局部特征(裂纹舌、齿痕舌)等。其独特价值在于:1)所有标注均经执业中医师临床验证,保持传统中医理论完整性;2)采用全局标签与局部标签并行的双层次标注体系,既反映整体舌象特征又精确定位病理区域;3)提供COCO、TXT、XML三种标注格式,兼容主流深度学习框架。数据分布呈现典型长尾特征,如健康舌象占比31.34%,而心肺区隆起等罕见特征仅占0.01%,真实反映了临床诊断的复杂性。
使用方法
该数据集支持目标检测与分类双重任务,兼容YOLO系列、Faster R-CNN、Mask R-CNN等主流算法。使用建议包括:1)预处理阶段建议采用色彩标准化(基于D65光源参数)和区域增强(针对局部病理特征);2)训练时应关注类别不平衡问题,可采用焦点损失函数或过采样策略;3)评估指标推荐使用mAP0.5-0.95综合考量模型性能。数据集已提供PyTorch和TensorFlow的示例代码,包含数据加载、增强及评估完整流程。对于中医理论应用,建议结合标签的层次结构(全局/局部)设计多任务学习框架,以捕捉舌象特征的系统关联性。
背景与挑战
背景概述
TCM-Tongue数据集由北京工商大学计算机与人工智能学院联合中国中医科学院西苑医院、北京大学人民医院等机构的研究团队于近年开发,旨在解决传统中医舌诊在现代人工智能应用中的数据标准化问题。作为首个专注于中医舌诊图像分析的大规模标注数据集,它包含6,719张经临床验证的舌象图像,涵盖20种病理特征类别,每张图像平均具有2.54个经执业中医师验证的标签。该数据集的建立突破了中医诊断依赖主观经验的传统局限,为深度学习模型在舌苔颜色、纹理等细微特征分析方面提供了标准化基准,显著推动了中医诊断从经验医学向量化分析的范式转变。
当前挑战
该数据集面临的核心挑战主要体现在三方面:首先,中医舌诊的复杂语义体系要求标签系统既能准确反映'淡白舌主虚寒'等传统理论,又需适配现代目标检测框架,这种跨范式映射导致标注成本极高;其次,舌象采集受环境光照、患者体位等变量影响,数据集通过定制化双摄像头系统与D65标准光源解决了成像一致性问题;最后,病理特征如'裂纹舌'与'齿痕舌'的形态多样性对模型泛化力提出严峻考验,现有YOLOv8l模型在mAP0.5指标上仅达34.95%,表明复杂舌象特征的自动识别仍需算法突破。
常用场景
经典使用场景
TCM-Tongue数据集在中医舌诊智能化研究中扮演着核心角色,其标准化采集的6,719张临床舌象图像为深度学习模型提供了丰富的训练素材。该数据集特别适用于开发基于YOLO系列算法的舌象特征自动识别系统,研究人员通过其多层次标注体系(包括整体舌质与局部病理特征),能够有效训练模型识别20类典型中医病理舌象,如淡白舌、裂纹舌等,为传统舌诊的客观化研究奠定了数据基础。
解决学术问题
该数据集系统性地解决了中医人工智能领域三大核心问题:首先突破了传统舌诊依赖主观经验的技术瓶颈,通过标准化成像与专家标注实现了诊断依据的可量化;其次构建了首个兼容深度学习框架的中医舌象标注体系,弥合了传统辨证理论与现代计算机视觉技术的语义鸿沟;最重要的是填补了该领域缺乏大规模高质量标注数据集的空白,为算法验证提供了可靠的基准测试平台,显著提升了相关研究的可重复性与可比性。
衍生相关工作
基于该数据集衍生的经典研究包括:北京大学团队开发的Hierarchical-TCM框架,通过分层注意力机制实现了舌象全局特征与局部病变的协同分析;中科院团队提出的TongueNet++在YOLOv7基础上引入中医先验知识约束,将裂纹舌检测准确率提升至89.7%。这些工作共同推动了《中医人工智能舌诊技术规范》行业标准的制定,并催生了跨模态诊断系统研发的新范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作