BUS-CoT
收藏arXiv2025-09-23 更新2025-11-21 收录
下载链接:
https://figshare.com/articles/dataset/A_Chain-of-thought_Reasoning_Breast_Ultrasound_Dataset_Covering_All_Histopathology_Categories/29036876/1
下载链接
链接失效反馈官方服务:
资源简介:
BUS-CoT数据集是一个包含10,897张乳腺超声图像的数据集,对应10,019个病变和4,838名患者,涵盖了所有99种组织病理学类型。该数据集旨在促进基于观察、特征、诊断和病理标签的链式思维(CoT)推理分析。数据集包含B模式超声、多普勒超声和弹性成像记录,数据标签包括病变特征、超声报告、BI-RADS评分和组织病理学类别。数据集由经验丰富的超声专家进行注释和验证。此外,为了提高鲁棒性,数据集还提供了18种不同设备类型的增强版本。该数据集的创建旨在解决乳腺超声图像分析的挑战,特别是AI系统在罕见情况下的泛化问题。
The BUS-CoT dataset is a collection of 10,897 breast ultrasound images, corresponding to 10,019 lesions and 4,838 patients, covering all 99 histopathological types. This dataset aims to facilitate chain-of-thought (CoT) reasoning analysis based on observations, features, diagnoses and pathological labels. It includes B-mode ultrasound, Doppler ultrasound and elastography records, with data labels encompassing lesion features, ultrasound reports, BI-RADS scores and histopathological categories. The dataset was annotated and validated by experienced ultrasound specialists. Furthermore, to enhance robustness, an augmented version of the dataset across 18 different device types is provided. This dataset was developed to address the challenges in breast ultrasound image analysis, especially the generalization issue of AI systems in rare clinical scenarios.
提供机构:
北京大学, 北京协和医学院医院, 北京大学肿瘤医院, 中国医学科学院肿瘤医院, 中国医学科学院肿瘤医院, 深圳市妇幼保健院, 西安交通大学, 一准医疗人工智能有限公司
创建时间:
2025-09-21
搜集汇总
数据集介绍

构建方式
在乳腺超声诊断领域,BUS-CoT数据集通过系统性整合多源公开数据构建而成。研究团队从开放获取论文、公共病例库及已有标注数据集中筛选符合WHO病理分类标准的样本,采用严格的质量控制流程排除低质量图像。标注工作由六位资深超声医师分三个阶段完成:首先进行病灶观察标注,包括定位与形态特征记录;随后开展影像特征标注,涵盖边界形态、内部回声等维度;最终结合病理结果完成诊断标注,形成完整的链式推理数据框架。
特点
该数据集在乳腺超声影像分析领域具有显著独特性。其涵盖11,439张影像、10,019个病灶及4,838例患者,完整覆盖99种组织病理学类型,突破了传统数据集在罕见类别上的覆盖瓶颈。数据维度包含B超、多普勒和弹性成像等多模态信息,并配备病灶特征描述、BI-RADS评分及病理诊断等多级标注。特别值得注意的是,通过风格迁移技术生成的18种设备类型增强版本,有效提升了模型在不同采集设备间的泛化能力。
使用方法
研究者可通过结构化数据框架开展多维度分析。数据集采用患者级8:2划分策略确保临床合理性,支持常规卷积网络与视觉语言模型的训练验证。对于分类任务,可基于病灶特征与病理标签构建恶性程度预测模型;针对推理任务,则能利用五级标注链训练端到端诊断系统。技术验证表明,引入链式推理机制的模型在模糊病例中表现显著提升,该特性为开发可解释性医疗AI系统提供了重要实验基础。
背景与挑战
背景概述
乳腺超声影像分析作为乳腺癌早期筛查的重要手段,在医疗资源分布不均的现状下具有特殊临床价值。由北京大学联合多家医疗机构于2025年共同发布的BUS-CoT数据集,聚焦于解决乳腺超声诊断中思维链推理机制的建模问题。该数据集涵盖4,838名患者的10,019个病灶影像,完整覆盖世界卫生组织分类标准的99种病理亚型,其规模达到主流基准BUSI的十倍以上。通过构建包含影像特征、BI-RADS分级与病理诊断的多层级标注体系,该数据集为推进可解释性医疗人工智能系统提供了关键基础设施。
当前挑战
在乳腺超声诊断领域,传统人工智能系统面临双重挑战:其一是模型缺乏临床推理过程的透明性,虽能达到较高诊断准确率,却难以呈现符合医学规范的决策路径,导致医生与AI系统间的协作效能受限;其二是模型对罕见病理类别的泛化能力不足,由于真实场景中病理类型呈现长尾分布,常规训练数据往往遗漏稀有病例。在数据构建层面,需克服多中心影像设备差异带来的域偏移问题,同时要保证六位资深超声医师对十万余条标注条目达成诊断共识,这要求设计精密的质量控制流程与标准化标注协议。
常用场景
经典使用场景
在乳腺超声影像分析领域,BUS-CoT数据集通过覆盖全部99种组织病理学类型的病灶图像,为医学人工智能系统提供了链式思维推理的标准化研究平台。其核心应用场景聚焦于训练模型从超声影像特征出发,逐步推演至病理诊断的完整认知过程,包括对病灶边界、回声模式、钙化特征等关键影像学表现的解析与关联。
衍生相关工作
基于该数据集衍生的经典研究主要沿三个方向展开:基于视觉语言模型的多模态诊断系统开发,通过融合影像与文本标注实现端到端推理;针对长尾分布的元学习框架设计,提升模型对罕见病理类型的识别能力;以及结合风格迁移技术的设备泛化研究,通过模拟不同超声设备成像特性增强模型临床适应性。
数据集最近研究
最新研究方向
在乳腺超声影像分析领域,BUS-CoT数据集正推动可解释人工智能的前沿探索。该数据集通过覆盖全部99种组织病理学类别,并构建包含观察、特征、诊断与病理的链式思维标注体系,为模型提供了从影像特征到临床诊断的完整推理路径。当前研究聚焦于利用视觉语言模型实现端到端的诊断推理,通过模拟医师的渐进式分析过程,显著提升了模型在罕见病例和边界性病变中的泛化能力。这一技术路径不仅解决了传统模型在域外泛化中的性能衰减问题,更通过可视化推理过程增强了临床诊疗的信任度,为构建下一代可信赖的医疗辅助系统奠定了数据基础。
相关研究论文
- 1通过北京大学, 北京协和医学院医院, 北京大学肿瘤医院, 中国医学科学院肿瘤医院/国家癌症中心/国家临床研究中心/肿瘤医院, 中国医科大学附属第一医院, 深圳市妇幼保健院, 西安交通大学, 一准医疗AI有限公司 · 2025年
以上内容由遇见数据集搜集并总结生成



