five

PRAD-10K|牙科影像分析数据集|医学图像处理数据集

收藏
arXiv2025-04-10 更新2025-04-15 收录
牙科影像分析
医学图像处理
下载链接:
http://arxiv.org/abs/2504.07760v1
下载链接
链接失效反馈
资源简介:
PRAD-10K是一个高质量的根尖X射线分析数据集,由南开大学计算机学院和合作医院共同构建。该数据集包含10000张由顶级医院牙科提供的临床根尖X射线图像,每张图像都经过了专业牙医的像素级标注,标注内容涵盖九种不同的解剖结构、病变以及修复或医疗设备。数据集旨在为智能根尖X射线分析的研究提供基准,推动该领域的发展。
提供机构:
南开大学计算机学院
创建时间:
2025-04-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
PRAD-10K数据集的构建依托于顶级医院牙髓病科的真实临床数据,经过严格的伦理审查确保符合赫尔辛基宣言。在数据收集阶段,放射学专家基于牙齿清晰可见、无严重伪影等标准筛选了10,000张高质量根尖周放射影像,并刻意纳入种植体、正畸治疗等复杂结构以增强数据多样性。标注工作由两名资深牙髓病学家和计算机研究员共同完成,采用分阶段交叉验证流程:先由两位专家独立标注两组数据,再通过Labelme软件进行像素级标注核对,最后对存在典型病变的图像追加分类标签。整个标注过程历时8个月,期间通过定期质量检查与相互复核确保标注准确性。
特点
作为牙科影像分析领域的重要资源,PRAD-10K具有三大核心特征:其一,规模上涵盖10,000张临床级根尖周放射影像,是目前该模态下最大规模的公开数据集;其二,标注维度包含九类解剖结构、病变及医疗设备的像素级分割标注,并附加牙周炎、根尖周炎等典型病变的分类标签,实现多任务分析能力;其三,数据质量通过专业牙医的双盲标注与交叉验证确保可靠性,且刻意保留多尺度特征如牙髓等微小结构,为模型处理临床复杂性提供挑战。相较于现有全景片数据集,其聚焦根尖片特有的局部细节呈现优势,填补了牙髓病学智能诊断的数据空白。
使用方法
该数据集主要服务于牙科AI算法的开发与验证,使用流程可分为三个阶段:预处理阶段需将RGB格式图像统一缩放至256×256分辨率,建议按8:2比例划分训练测试集;模型训练阶段推荐采用结合交叉熵与DICE损失的复合目标函数,初始学习率设为0.0001并配合Poly衰减策略;性能评估阶段应重点关注多尺度结构的分割效果,特别是牙冠与种植体等易混淆类别的区分度。配套提供的PRNet基准模型集成多尺度小波卷积与通道融合注意力机制,用户可参照其层级特征通道[64,128,256,512]的配置进行迁移学习。对于半监督学习等进阶应用,可利用未标注病例扩展数据效用。
背景与挑战
背景概述
PRAD-10K数据集由南开大学计算机科学与技术学院联合天津市第一中心医院等机构于2025年发布,是首个专注于根尖周X线片(Periapical Radiographs, PR)智能分析的大规模专业标注数据集。作为牙髓病学和牙周病学最常用的影像学检查手段,PR因其低成本和高局部细节呈现能力而广泛应用于临床,但此前缺乏高质量的公开数据集制约了深度学习在该领域的应用。该数据集包含10,000张临床PR图像,由专业牙医对9类解剖结构、病变及修复体进行像素级标注,同时提供典型病变的分类标签,填补了牙科影像分析领域的重要空白。
当前挑战
PRAD-10K主要解决牙科影像分析中根尖周片多尺度结构分割与病变识别的核心挑战。由于PR图像存在分辨率限制、金属伪影干扰及牙科修复体形态变异等问题,导致传统方法对小尺度目标(如根尖周病变)的识别准确率不足。在构建过程中,研究团队面临临床数据标准化采集的困难,包括消除患者隐私信息、处理影像质量不均等问题;标注阶段需协调多位牙医专家达成标注共识,克服复杂解剖结构边界模糊的标注歧义,整个标注流程耗时超过8个月。此外,数据集中植入体与牙冠等相似结构的区分、多类别不平衡分布等问题也为模型训练带来挑战。
常用场景
经典使用场景
在口腔医学领域,PRAD-10K数据集为深度学习技术在根尖周片分析中的应用提供了重要支持。该数据集包含10,000张临床根尖周片图像,涵盖了九种不同的解剖结构、病变及人工修复体的像素级标注,为研究者提供了丰富的标注数据。通过PRAD-10K,研究人员能够训练和评估深度学习模型在牙齿、牙周组织及根尖病变的自动分割任务中的表现。数据集的高质量和多样性使其成为根尖周片分析领域的基准数据集,推动了计算机辅助诊断技术的发展。
解决学术问题
PRAD-10K数据集解决了根尖周片分析领域中的多个关键学术问题。首先,它填补了公开大规模高质量根尖周片数据集的空白,为深度学习模型的训练提供了可靠的数据支持。其次,数据集的多类别标注使得模型能够同时处理多种解剖结构和病变的分割任务,提升了模型的泛化能力。此外,数据集中的分类标签为典型病变的诊断提供了额外信息,有助于研究者在分割任务之外探索分类和检测问题。这些特性显著促进了根尖周片智能分析的研究进展。
衍生相关工作
PRAD-10K数据集的发布催生了一系列相关研究。例如,论文中提出的PRNet模型结合了多尺度小波卷积网络和通道融合注意力机制,在根尖周片分割任务中取得了领先性能。此外,该数据集还被用于探索半监督学习和多模态融合方法,以进一步提升模型的鲁棒性和泛化能力。这些研究不仅推动了根尖周片分析技术的发展,也为其他医学图像分析任务提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Alexa Domains

该数据集由前 100 万个网站的 URL 组成。 域名使用 Alexa 流量排名进行排名 是使用浏览行为的组合来确定的 网站上的用户数、唯一身份访问者的数量和网页浏览量。更详细地说,唯一身份访问者是 在给定日期访问网站的唯一用户数, 和 pageviews 是用户 URL 请求的总数 网站。但是,对同一网站的多个请求 在同一天被计为一次综合浏览量。网站 独立访问者和综合浏览量的最高组合 排名最高

OpenDataLab 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录