CT-RATE-JPN
收藏CT-RATE-JPN 数据集
CT-RATE-JPN 是 CT-RATE 数据集的日语翻译版本,包含胸部 CT 影像及其对应的放射学报告。
数据集概述
CT-RATE-JPN 提供了 CT-RATE 数据集中放射学报告的日语翻译,旨在促进日本医疗 AI 模型的发展。原始的 CT-RATE 数据集包含 25,692 个非对比胸部 CT 影像及其对应的报告,本数据集专注于提供去重后的日语翻译报告。CT 影像可以直接从原始的 CT-RATE 数据集仓库下载。
翻译详情
-
训练集 (train):
- 使用 GPT-4o-mini(API 版本,"gpt-4o-mini-2024-07-18")进行机器翻译。
- 覆盖了原始 CT-RATE 数据集的完整训练集。
- 由于从原始 CSV 中删除了重复项,行数有所减少。
-
验证集 (valid):
- 包含 150 份报告(约占原始验证集的 10%)。
- 报告首先使用 GPT-4o-mini 进行机器翻译,然后由放射科医生进行日语翻译修订。
- 包含以下列:Findings_JPN_MT, Findings_JPN_Revised, Findings_Checked。
- MT 表示由 GPT-4o-mini 进行的机器翻译。
- Revised 包含非执业医师的第一阶段翻译。
- Checked 包含执业高级放射科医生审查后的最终报告。
- 为了指示翻译者,Radiologist 列显示第一阶段翻译者(0-4),Senior_Radiologist 列显示第二阶段翻译者(0-1)。
引用
使用此数据集时,请引用以下内容:
原始 CT-RATE 数据集:
请访问原始 CT-RATE 仓库以获取适当的引用信息。使用此数据集时,请确保按照其仓库中的规定正确引用原始 CT-RATE 数据集。
CT-RATE-JPN:
@misc{yamagishi2024ctrep, title={Development of a Large-scale Dataset of Chest Computed Tomography Reports in Japanese and a High-performance Finding Classification Model}, author={Yosuke Yamagishi and Yuta Nakamura and Tomohiro Kikuchi and Yuki Sonoda and Hiroshi Hirakawa and Shintaro Kano and Satoshi Nakamura and Shouhei Hanaoka and Takeharu Yoshikawa and Osamu Abe}, year={2024}, eprint={2412.15907}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.15907}, }
许可证
本数据集基于 Creative Commons Attribution (CC BY-NC-SA) 许可证 发布,与原始 CT-RATE 数据集保持一致。日语翻译使用 GPT-4o-mini 生成,本数据集仅限于非商业研究用途。用户在使用此数据集时,还需确保遵守 OpenAI 的使用条款。




