five

CT-RATE-JPN

收藏
arXiv2024-12-20 更新2024-12-24 收录
下载链接:
https://huggingface.co/datasets/YYama0/CT-RATE-JPN
下载链接
链接失效反馈
官方服务:
资源简介:
CT-RATE-JPN是一个大规模的日本胸部CT报告数据集,由东京大学医学研究生院放射学与生物医学工程系开发。该数据集包含24,283条CT报告,涵盖21,304名患者的胸部CT影像和相应的放射学报告。数据集通过GPT-4o mini进行机器翻译,并由放射科医生对部分报告进行修订,以确保翻译质量。CT-RATE-JPN的创建旨在解决日本医学自然语言处理领域中缺乏大规模放射学数据集的问题,支持医学影像分析和语言模型的开发。该数据集的应用领域包括医学AI研究和多语言医学数据处理,旨在提高日本医疗环境中医学影像分析的准确性和效率。

CT-RATE-JPN is a large-scale Japanese chest CT report dataset developed by the Department of Radiology and Biomedical Engineering, Graduate School of Medicine, The University of Tokyo. It contains 24,283 CT reports paired with chest CT images and their corresponding radiology reports from 21,304 unique patients. The dataset was machine-translated using GPT-4o mini, and revised by radiologists for a subset of the reports to ensure translation quality. The development of CT-RATE-JPN aims to address the shortage of large-scale radiology datasets in the field of Japanese medical natural language processing, and support the development of medical image analysis and language models. Its application areas include medical AI research and multilingual medical data processing, with the goal of enhancing the accuracy and efficiency of medical image analysis in Japanese healthcare environments.
提供机构:
东京大学医学研究生院放射学与生物医学工程系
创建时间:
2024-12-20
原始信息汇总

CT-RATE-JPN 数据集

CT-RATE-JPN 是 CT-RATE 数据集的日语翻译版本,包含胸部 CT 影像及其对应的放射学报告。

数据集概述

CT-RATE-JPN 提供了 CT-RATE 数据集中放射学报告的日语翻译,旨在促进日本医疗 AI 模型的发展。原始的 CT-RATE 数据集包含 25,692 个非对比胸部 CT 影像及其对应的报告,本数据集专注于提供去重后的日语翻译报告。CT 影像可以直接从原始的 CT-RATE 数据集仓库下载。

翻译详情

  • 训练集 (train):

    • 使用 GPT-4o-mini(API 版本,"gpt-4o-mini-2024-07-18")进行机器翻译。
    • 覆盖了原始 CT-RATE 数据集的完整训练集。
    • 由于从原始 CSV 中删除了重复项,行数有所减少。
  • 验证集 (valid):

    • 包含 150 份报告(约占原始验证集的 10%)。
    • 报告首先使用 GPT-4o-mini 进行机器翻译,然后由放射科医生进行日语翻译修订。
    • 包含以下列:Findings_JPN_MT, Findings_JPN_Revised, Findings_Checked
      • MT 表示由 GPT-4o-mini 进行的机器翻译。
      • Revised 包含非执业医师的第一阶段翻译。
      • Checked 包含执业高级放射科医生审查后的最终报告。
    • 为了指示翻译者,Radiologist 列显示第一阶段翻译者(0-4),Senior_Radiologist 列显示第二阶段翻译者(0-1)。

引用

使用此数据集时,请引用以下内容:

原始 CT-RATE 数据集:

请访问原始 CT-RATE 仓库以获取适当的引用信息。使用此数据集时,请确保按照其仓库中的规定正确引用原始 CT-RATE 数据集。

CT-RATE-JPN:

@misc{yamagishi2024ctrep, title={Development of a Large-scale Dataset of Chest Computed Tomography Reports in Japanese and a High-performance Finding Classification Model}, author={Yosuke Yamagishi and Yuta Nakamura and Tomohiro Kikuchi and Yuki Sonoda and Hiroshi Hirakawa and Shintaro Kano and Satoshi Nakamura and Shouhei Hanaoka and Takeharu Yoshikawa and Osamu Abe}, year={2024}, eprint={2412.15907}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.15907}, }

许可证

本数据集基于 Creative Commons Attribution (CC BY-NC-SA) 许可证 发布,与原始 CT-RATE 数据集保持一致。日语翻译使用 GPT-4o-mini 生成,本数据集仅限于非商业研究用途。用户在使用此数据集时,还需确保遵守 OpenAI 的使用条款

搜集汇总
数据集介绍
main_image_url
构建方式
CT-RATE-JPN数据集的构建采用了创新的混合方法,结合了机器翻译与专家验证。首先,通过GPT-4o mini模型将原始的CT-RATE数据集中的24,283份CT报告从英语翻译为日语,生成了22,778份机器翻译的报告作为训练数据。随后,为了确保翻译质量,从验证集中随机选取了150份报告,经过放射科医生的仔细修订,形成了高质量的验证数据集。这种双轨制的方法不仅保证了数据集的规模,还通过专家验证确保了翻译的准确性和医学术语的正确性。
特点
CT-RATE-JPN数据集的主要特点在于其高质量的日语放射学报告和结构化的标注。数据集包含了18种关键的胸部CT发现,涵盖了从肺结节到心脏肥大等多种病理和解剖结构。此外,数据集通过机器翻译与专家修订相结合的方式,确保了报告的语义和医学术语的准确性,使其成为开发日语医学语言模型的理想资源。
使用方法
CT-RATE-JPN数据集可用于训练和评估日语医学语言模型,特别是针对放射学报告的结构化信息提取任务。研究者可以使用该数据集训练BERT等深度学习模型,以实现从日语放射学报告中自动提取结构化标签的功能。此外,数据集还可用于评估不同模型的性能,尤其是在处理日语医学文本时的表现。通过公开的数据集和模型,研究者可以进一步推动日语医学AI的发展,特别是在放射学领域的应用。
背景与挑战
背景概述
近年来,大型语言模型的发展突显了对高质量多语言医学数据集的需求。尽管日本在计算机断层扫描(CT)设备的使用上处于全球领先地位,但缺乏大规模的日语放射学数据集,阻碍了专门用于医学影像分析的语言模型的开发。CT-RATE-JPN数据集的创建旨在填补这一空白,通过机器翻译和专家验证,构建了一个包含24,283份日语CT报告的综合数据集。该数据集由东京大学医学院的研究团队主导,旨在解决日语医学自然语言处理资源的不足,并为多语言医学AI研究提供基础。
当前挑战
CT-RATE-JPN数据集的构建面临多重挑战。首先,机器翻译在处理医学术语时存在局限性,尽管BLEU和ROUGE等自动评估指标显示翻译质量较高,但专家审查发现仍需对医学术语进行上下文优化和本地化处理。其次,数据集中存在显著的类别不平衡问题,某些病理条件的样本数量极少,这可能影响模型的泛化能力。此外,尽管机器翻译在训练数据生成中表现出色,但在某些情况下,专家修订的报告对模型性能的影响更为显著,尤其是在处理复杂医学术语时。
常用场景
经典使用场景
CT-RATE-JPN数据集的经典使用场景主要集中在胸部CT报告的自动化分析与结构化信息提取。通过该数据集,研究人员可以训练和验证专门针对日语放射学报告的自然语言处理模型,如CT-BERT-JPN,用于从非结构化的日语放射学报告中提取关键的结构化发现标签。这一过程不仅提高了放射学报告的处理效率,还为多语言医学影像分析提供了重要的资源。
实际应用
CT-RATE-JPN数据集在实际应用中具有广泛的潜力,特别是在日本的高频CT扫描环境中。该数据集可用于开发自动化放射学报告分析工具,帮助医生快速提取和分析CT报告中的关键信息,从而提高诊断效率和准确性。此外,该数据集还可用于训练和验证多语言医学影像分析模型,支持跨国医疗合作和远程诊断,进一步推动全球医疗AI技术的应用。
衍生相关工作
CT-RATE-JPN数据集的发布催生了一系列相关研究工作,特别是在日语医学自然语言处理和多语言医学影像分析领域。基于该数据集,研究人员开发了CT-BERT-JPN模型,展示了其在日语放射学报告结构化信息提取中的优越性能。此外,该数据集还为未来的多模态医学影像分析研究提供了基础,如结合CT图像与报告的视觉语言模型(Vision-Language Models),进一步推动了日语医学影像分析技术的创新与发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作