five

CoMT-format datasets

收藏
github2025-02-28 更新2025-03-11 收录
下载链接:
https://github.com/FRENKIE-CHIANG/CoMT
下载链接
链接失效反馈
官方服务:
资源简介:
本文提出的数据集格式,用于Chain-of-Medical-Thought方法,以减少医疗报告生成中的虚构问题。

The dataset format proposed in this paper is designed for the Chain-of-Medical-Thought method to mitigate the hallucination problem in medical report generation.
创建时间:
2025-02-28
原始信息汇总

数据集概述

数据集来源

  1. MIMIC-CXR

    • 访问链接:https://physionet.org/content/mimic-cxr/2.0.0
    • 访问权限:需凭证访问
  2. OpenI

    • 访问链接:https://www.kaggle.com/datasets/raddar/chest-xrays-indiana-university
    • 访问权限:开放访问
  3. VQA-RAD

    • 访问链接:https://osf.io/89kps/
    • 访问权限:开放访问
  4. SLAKE

    • 访问链接:https://www.med-vqa.com/slake/
    • 访问权限:开放访问

CoMT格式数据集

  • 存储路径:/CoMT/dataset
  • 数据获取:需从提供的链接下载图像并存储至对应路径

评估工具

  1. Medihall Score计算

  2. NLG Score计算

引用

bibtex @inproceedings{jiang2024comt, title={CoMT: Chain-of-Medical-Thought Reduces Hallucination in Medical Report Generation}, author={Yue Jiang and Jiawei Chen and Dingkang Yang and Mingcheng Li and Shunli Wang and Tong Wu and Ke Li and Lihua Zhang}, booktitle={ICASSP},
year={2025}
}

搜集汇总
数据集介绍
main_image_url
构建方式
CoMT-format数据集的构建,基于模仿人类医生认知过程的链式医学思维方法(CoMT),通过对诊断过程的分解,将不同重要性的放射学特征构建为细粒度的医学思维链。该数据集整合了MIMIC-CXR、OpenI、VQA-RAD和SLAKE等多个医学数据集,旨在增强诊断过程中的推理能力,减少自动生成医疗报告时的虚构问题,从而提高诊断准确性。
特点
该数据集的特点在于引入了CoMT方法,通过构建医学思维链来降低大型医学视觉语言模型在生成医疗报告时因数据不均衡导致的虚构问题。数据集包含开放获取和凭证获取的医学影像,支持研究者对模型在减少虚构现象方面的性能进行评估。
使用方法
使用CoMT-format数据集,研究者需从提供的链接下载影像数据,并将其存储在相应的路径下。数据集的评估可通过Medihall Score和NLG Score两种评分方法进行,用户需根据实际需求修改文件路径。正确引用此数据集对学术界的贡献,是促进学术交流的重要环节。
背景与挑战
背景概述
自动医疗报告生成(MRG)在辅助放射科医生进行临床诊断与报告编制方面具有重要的研究价值,引起了广泛的关注。本研究于2025年ICASSP会议提出了一种名为CoMT的医疗报告生成方法,该方法通过模仿人类医生的临床思维过程,旨在减少医疗报告生成中的虚构现象。CoMT数据集由MIMIC-CXR、OpenI、VQA-RAD及SLAKE等医疗数据集构成,其核心研究问题是提升医疗视觉语言模型在生成精确报告方面的能力,并对罕见疾病的诊断性能进行了加强,对医学自然语言生成领域产生了显著影响。
当前挑战
该数据集在构建过程中面临的挑战主要包括:1)如何降低大型医疗视觉语言模型在罕见疾病上的虚构现象,保障诊断的准确性;2)如何有效地将放射学特征进行细化,构建出精细的医疗思维链,以增强诊断过程中的推理能力。此外,数据集的构建还需克服医疗数据获取限制和数据分布不均等难题,以确保模型在实践应用中的有效性和可靠性。
常用场景
经典使用场景
在自动医疗报告生成领域,CoMT-format数据集被广泛用于训练能够模仿人类医生认知过程的模型。该数据集通过将医学影像的诊断过程分解为细致的医疗思维链条,为模型提供了结构化的、重要性不同的放射学特征,从而增强了模型在诊断过程中的推理能力,有效减少了生成报告时的虚构现象。
实际应用
在实际应用中,CoMT-format数据集为医学影像诊断辅助系统提供了高质量的训练基础,有助于提高医疗报告的生成质量,降低误诊率,对于提升临床诊断效率和医疗服务的质量具有重要意义。
衍生相关工作
基于CoMT-format数据集的研究衍生出了多个相关的工作,如对医疗思维链条的优化、诊断推理过程的可视化等,这些研究进一步扩展了自动医疗报告生成技术的边界,并在医学影像解析、临床决策支持等领域产生了深远的影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作