CT-RATE-JPN

Hugging Face2024-12-09 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/YYama0/CT-RATE-JPN

下载链接

链接失效反馈

官方服务：

资源简介：

CT-RATE-JPN数据集是CT-RATE数据集的日文翻译版本，包含胸部CT图像及其对应的放射学报告。原始CT-RATE数据集包含25,692个非对比胸部CT图像及其报告。CT-RATE-JPN数据集专注于提供这些报告的日文翻译版本，以促进日本医疗AI模型的发展。翻译细节包括使用GPT-4o-mini进行机器翻译，并由放射科医生进行修订。训练集覆盖了原始CT-RATE的完整训练集，验证集包含150份报告，经过机器翻译和放射科医生的修订。数据集遵循与原始CT-RATE数据集相同的Creative Commons Attribution (CC-BY-NC-SA) 4.0许可证。

创建时间：

2024-12-02

原始信息汇总

CT-RATE-JPN 数据集

数据集概述

CT-RATE-JPN 是 CT-RATE 数据集的日语翻译版本，包含胸部 CT 影像及其对应的放射学报告。该数据集旨在促进日本医疗 AI 模型的发展。原始的 CT-RATE 数据集包含 25,692 个非对比胸部 CT 影像及其对应的报告，而本数据集专注于提供去重后的日语翻译报告。CT 影像可以直接从原始的 CT-RATE 数据集中下载。

翻译详情

训练集 (train):
- 使用 GPT-4o-mini (API 版本, "gpt-4o-mini-2024-07-18") 进行机器翻译。
- 覆盖了原始 CT-RATE 数据集的完整训练集。
验证集 (valid):
- 包含 150 份报告（约占原始验证集的 10%）。
- 报告首先由 GPT-4o-mini 进行机器翻译，然后由放射科医生进行日语翻译修订。
- 包含以下列：
  - Findings_JPN_MT: 由 GPT-4o-mini 进行的机器翻译。
  - Findings_JPN_Revised: 由非执业医师进行的第一阶段翻译。
  - Findings_Checked: 由执业高级放射科医生审核后的最终报告。
- 为了标明翻译者，Radiologist 列显示第一阶段翻译者（0-4），Senior_Radiologist 列显示第二阶段翻译者（0-1）。

引用

使用此数据集时，请引用以下内容：

原始 CT-RATE 数据集:

请访问原始 CT-RATE 数据集仓库以获取适当的引用信息。使用此数据集时，请确保正确引用原始 CT-RATE 数据集。

CT-RATE-JPN:

CT-RATE-JPN 的引用信息将在我们即将发布的论文中提供。

许可证

本数据集基于 Creative Commons Attribution (CC-BY-NC-SA) 许可证发布，与原始 CT-RATE 数据集保持一致。

搜集汇总

数据集介绍

构建方式

CT-RATE-JPN数据集的构建基于对原始CT-RATE数据集中放射学报告的日文翻译。该数据集通过GPT-4o-mini模型进行机器翻译，并辅以非认证医师的初步修订和资深认证放射科医生的最终审核，以确保翻译的准确性和专业性。训练集的翻译覆盖了原始CT-RATE的完整训练集，而验证集则包含150份报告，其中部分报告经过双重翻译和修订，以提高翻译质量。

特点

CT-RATE-JPN数据集的主要特点在于其双层翻译和修订机制，确保了日文翻译的精确性和专业性。数据集不仅提供了机器翻译的初步版本，还包含了经过非认证医师修订和资深放射科医生审核的最终版本，从而为日本医疗AI模型的开发提供了高质量的语言数据。此外，数据集的结构清晰，包含了翻译过程中的各个阶段信息，便于用户进行不同层次的分析和应用。

使用方法

CT-RATE-JPN数据集可用于开发和验证面向日本市场的医疗AI模型，特别是在放射学报告的自动翻译和理解领域。用户可以直接使用机器翻译的版本进行初步模型训练，或利用经过修订和审核的最终版本进行更精确的模型验证。数据集的结构设计允许用户根据需要选择不同层次的翻译质量，从而灵活应用于各种研究和开发场景。在使用时，用户应遵循CC BY-NC-SA 4.0许可协议，并确保正确引用原始CT-RATE数据集和CT-RATE-JPN的相关文献。

背景与挑战

背景概述

CT-RATE-JPN数据集是基于CT-RATE数据集的日语翻译版本，旨在促进日本医疗AI模型的发展。CT-RATE数据集包含了25,692个非对比胸部CT图像及其对应的放射学报告。CT-RATE-JPN数据集专注于提供这些报告的日语翻译版本，并通过去重处理优化了数据结构。该数据集的翻译工作采用了GPT-4o-mini模型进行机器翻译，并由非认证医师和资深认证放射科医生进行了多阶段的修订和审核，以确保翻译的准确性和专业性。CT-RATE-JPN的发布不仅为日本医疗AI领域提供了宝贵的资源，也为全球医疗AI研究提供了多语言支持的可能性。

当前挑战

CT-RATE-JPN数据集在构建过程中面临了多重挑战。首先，机器翻译的准确性需要通过专业医疗人员的修订来确保，这增加了数据处理的复杂性和成本。其次，数据的去重处理虽然优化了数据集的结构，但也可能导致部分信息的丢失。此外，放射学报告的翻译需要高度专业化的知识，确保翻译的术语和表达符合医疗标准，这对翻译团队的专业素养提出了高要求。最后，数据集的发布和使用需要遵循严格的版权和许可协议，确保数据的合法性和可持续性。

常用场景

经典使用场景

CT-RATE-JPN数据集的经典使用场景主要集中在医学影像与自然语言处理的交叉领域。该数据集通过提供日语版本的放射学报告，为日本医疗AI模型的开发提供了宝贵的资源。研究者可以利用这些日语报告与对应的胸部CT影像数据，训练和验证自然语言处理模型，以实现自动化的放射学报告生成、影像描述与诊断辅助等功能。

实际应用

在实际应用中，CT-RATE-JPN数据集可用于开发和优化日语放射学报告生成系统，辅助放射科医生快速生成准确的诊断报告。此外，该数据集还可用于构建日语医学影像问答系统，帮助非专业人士理解复杂的医学影像信息。通过这些应用，CT-RATE-JPN数据集在提升医疗效率、降低误诊率方面具有显著的实际价值。

衍生相关工作

基于CT-RATE-JPN数据集，研究者已开展了一系列相关工作，包括日语放射学报告生成模型的开发、多语言医学影像分析模型的构建，以及跨语言医学知识图谱的构建等。这些工作不仅推动了日本医疗AI技术的发展，也为全球范围内的多语言医学数据集研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集