Pathology-CoT Dataset
收藏github2025-10-14 更新2025-10-16 收录
下载链接:
https://github.com/zhihuanglab/Pathology-CoT
下载链接
链接失效反馈官方服务:
资源简介:
第一个大规模公共数据集,将专家导航行为与临床推理配对,包含来自10.6小时诊断会话的5,222个对话轮次
The first large-scale public dataset that pairs expert navigation behaviors with clinical reasoning, encompassing 5,222 conversational turns derived from 10.6 hours of diagnostic sessions
创建时间:
2025-10-07
原始信息汇总
Pathology-CoT 数据集概述
数据集基本信息
- 名称:Pathology-CoT
- 类型:病理学视觉思维链数据集
- 任务:结直肠癌淋巴结转移检测
- 数据来源:斯坦福医学院病理学家诊断行为记录
数据集规模
- 诊断会话时长:10.6小时
- 参与病理学家:8位(住院医师、研究员、主治医师)
- 对话轮次:5,222个行为-推理对
核心内容
数据采集框架
- AI会话记录器:将原始病理学查看器日志转换为结构化行为命令和推理
- 行为记录:包括缩放级别、视口坐标、边界框和时间戳
- 行为分类:
<inspect>:低中倍镜下的广泛探索性扫描(5x、10x)<peek>:高倍镜下的快速细胞细节检查(40x)
数据集结构
每个病例文件夹包含:
- thumbnail.jpeg:WSI缩略图(低倍镜概览)
- thumbnail_with_boxes.jpeg:标记所有ROI框的缩略图
- box_1.jpeg, box_2.jpeg, ...:中倍镜ROI裁剪图(~10x)
- cyto_box_1.jpeg, ...:高倍镜细胞学视图(~40x)
- thumbnail_with_box_1.jpeg, ...:显示单个ROI位置的缩略图
- conversation.json:结构化诊断对话
对话格式
json [ { "role": "user", "content": [ {"type": "text", "text": "初步印象是什么?"}, {"type": "image", "image": "thumbnail.jpeg"} ] }, { "role": "assistant", "content": [ {"type": "text", "text": "我观察到多个淋巴结结构完整..."} ] } ]
应用工具
验证界面
- GUI验证工具:专家审查AI生成推理的人机交互界面
- 功能:并排比较图像和文本、快速内联编辑、质量控制工作流
演示代理
- Pathologist-O3代理:行为引导诊断系统演示
- 架构:
- 阶段1:行为预测(YOLOv8识别专家关注的区域)
- 阶段2:推理分析(视觉语言模型生成临床发现和诊断)
模型权重
- 行为预测器:
behavior_predictor.pt(基于Pathology-CoT数据集训练的YOLOv8权重) - 下载地址:https://drive.google.com/file/d/1Nt43q0R9j42w6qZFXp0J0fA_NwUlgqmb/view?usp=share_link
支持模型
- OpenAI(GPT-4o、GPT-4-turbo、O3)
- Google(Gemini-2.5-Pro、Gemini-Flash)
- Anthropic(Claude-3、Claude-3.5)
- X.AI(Grok-2)
- 通过OpenRouter的开源模型
引用信息
bibtex @misc{wang2025pathologycotlearningvisualchainofthought, title={Pathology-CoT: Learning Visual Chain-of-Thought Agent from Expert Whole Slide Image Diagnosis Behavior}, author={Sheng Wang and Ruiming Wu and Charles Herndon and Yihang Liu and Shunsuke Koga and Jeanne Shen and Zhi Huang}, year={2025}, eprint={2510.04587}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2510.04587}, }
搜集汇总
数据集介绍

构建方式
在数字病理学领域,Pathology-CoT数据集通过创新性地记录专家诊断行为构建而成。其核心采用AI会话记录器框架,将病理学家在阅片过程中产生的原始日志转化为结构化数据。该流程首先解析来自多种全玻片图像浏览器的操作记录,包括缩放级别与视口坐标等参数;随后将连续导航行为离散化为<inspect>与<peek>等标准化动作;最后结合视觉语言模型生成临床推理文本,并经由病理学家通过交互式界面进行高效验证,实现人工标注效率六倍提升。
特点
作为首个大规模公开的病理诊断行为数据集,Pathology-CoT展现出多维度特征优势。数据集囊括斯坦福医学中心八位病理专家长达10.6小时的诊断会话,涵盖5222轮对话回合,专注于结直肠癌淋巴结转移检测任务。其独特价值在于完整呈现专家决策链条:既包含全玻片图像中多分辨率区域定位(5x至40x放大序列),又融合对应临床推理文本。数据以会话式JSON结构组织,配合不同放大倍率的感兴趣区域裁剪图像,形成行为-认知的闭环映射。
使用方法
该数据集为开发智能诊断代理提供标准化应用范式。研究者可通过加载会话JSON文件获取结构化对话数据,结合配套图像资源构建训练样本。具体实施时需先配置依赖环境,利用预训练的行为预测模型识别全玻片图像中的关键区域,随后调用视觉语言模型对提取的感兴趣区域进行多轮推理分析。数据集支持多种主流模型架构,用户可根据需求选择GPT-4o或Gemini等后端引擎,通过调整图像历史模式参数实现不同粒度的推理链条建模。
背景与挑战
背景概述
数字病理学领域近年来在人工智能辅助诊断方面取得显著进展,但全切片图像的交互式诊断过程仍面临建模难题。2025年,斯坦福医学院研究团队发布了Pathology-CoT数据集,该资源通过记录8位病理专家在10.6小时诊断会话中的视觉行为,构建了包含5,222组对话回合的链式思维标注数据。该数据集聚焦结直肠癌淋巴结转移检测任务,创新性地将专家观察行为转化为结构化推理轨迹,为构建具有临床解释性的自主诊断智能体提供了关键训练基础。
当前挑战
该数据集致力于解决全切片图像诊断中智能体决策机制建模的核心挑战:如何使AI系统具备模拟病理专家动态调整放大倍数、移动视野区域的认知能力。在数据构建过程中,研究团队面临两大技术瓶颈:其一是如何将高频、连续的眼动日志离散化为具有临床意义的动作序列;其二是通过人机协同标注机制,以6倍效率提升实现专家隐性知识到显式推理文本的可靠转化,同时确保不同数字病理平台日志格式的兼容性。
常用场景
经典使用场景
在数字病理学领域,Pathology-CoT数据集为构建具有自主诊断能力的智能代理系统提供了关键训练资源。该数据集通过记录病理专家在结直肠癌淋巴结转移检测任务中的完整诊断行为,包括多尺度图像观察序列和临床推理过程,使得人工智能模型能够学习专家级的多阶段诊断策略。模型可依据数据集中的行为模式,自主决定在整张切片图像中的观察区域、调整放大倍数,并生成可解释的诊断结论,显著提升了病理图像分析的自动化水平。
衍生相关工作
基于该数据集衍生的Pathologist-O3智能代理已成为经典范例,其采用行为预测与视觉推理的双阶段架构,开创了病理图像分析的新范式。该工作启发了后续研究将专家行为建模融入医疗视觉任务,如乳腺病理分级、免疫组化评分等方向。相关技术路线还被拓展至眼科OCT图像分析、放射学影像诊断等领域,形成了跨模态医疗行为学习的通用框架。
数据集最近研究
最新研究方向
数字病理学领域正迎来人工智能与临床诊断深度融合的革新浪潮,Pathology-CoT数据集通过捕捉专家阅片行为中的视觉思维链,为构建自主决策的病理诊断智能体开辟了新范式。该数据集将病理医师在整张切片图像中的动态观察序列——包括缩放调整、视域切换等操作——转化为结构化推理数据,有效解决了传统方法难以量化临床经验的瓶颈。当前研究聚焦于行为引导的多模态推理框架开发,通过结合视觉语言模型与专家动作预测模块,推动诊断系统从被动图像分析转向主动探索式认知。这一方向不仅呼应了医疗人工智能对可解释性的迫切需求,更通过规模化采集真实诊断场景数据,为构建具备人类级推理逻辑的辅助诊断系统奠定了基石。
以上内容由遇见数据集搜集并总结生成



