TCGA_Reports_ja_structured

Hugging Face2025-11-13 更新2025-11-14 收录

下载链接：

https://huggingface.co/datasets/morizon/TCGA_Reports_ja_structured

下载链接

链接失效反馈

官方服务：

资源简介：

TCGA日语翻译和结构化数据集，包含英语病理报告的原文，以及通过大规语言模型（LLM）翻译的日语版本和抽取的结构化数据。

创建时间：

2025-11-08

原始信息汇总

TCGA日本語翻訳・構造化データセット

数据集概述

本数据集基于The Cancer Genome Atlas (TCGA)公开的英语病理报告，通过大语言模型(LLM)进行日语翻译和信息提取结构化处理。

数据来源

原始数据：Mendeley Data — TCGA Pathology Reports (Version 1)
原始数据地址：https://data.mendeley.com/datasets/hyg5xkznpx/1

数据集特征

数据结构

idx：唯一识别编号（int32）
question_en：英语原文（string）
question_ja：英语原文的日语翻译（string）
answer_ja：从日语报告中提取的结构化数据（JSON格式，string）

数据规模

训练集：100个样本
数据文件路径：data/train-*

结构化数据字段

answer_ja字段包含以下日语键值对：

臓器：检体器官名称
採取方法：手术・采集种类
診断：主要病理诊断
分化度：肿瘤分级
病期：TNM分类和病期
腫瘍径：最大肿瘤直径
浸潤範囲：局部・血管・周围组织浸润信息
断端：手术断端肿瘤有无
その他所見：非肿瘤部位所见・炎症等补充发现

生成流程

英语→日语翻译
- 使用模型：Qwen3-30B-A3B-Instruct-2507
- 策略：保持文章结构和数值标点的自然日语翻译
日语→结构化信息提取
- 使用模型：Qwen3-30B-A3B-Instruct-2507
- 策略：基于固定日语键值提取信息，输出STRICT JSON格式

许可证信息

许可证类型：Creative Commons Attribution 4.0 International (CC BY 4.0)
许可证地址：https://creativecommons.org/licenses/by/4.0/
使用限制：限于教育研究用途

使用示例

python from datasets import load_dataset

ds = load_dataset("morizon/TCGA_Reports_JA_Structured") print(ds["train"][0]["question_ja"]) print(ds["train"][0]["answer_ja"])

搜集汇总

数据集介绍

构建方式

在癌症基因组图谱（TCGA）病理报告数据基础上，本数据集通过大语言模型技术实现了双重转化。首先采用Qwen3-30B-A3B-Instruct-2507模型对原始英文报告进行专业医学翻译，保留原文的数值精度和术语体系；继而运用相同模型进行结构化信息抽取，将日语报告内容转化为包含脏器、诊断分级、肿瘤尺寸等九个关键字段的标准化JSON格式，构建过程严格遵循医学文本处理规范。

特点

该数据集呈现三模态特征：完整保留TCGA原始英文病理报告，配备专业级日语翻译版本，并衍生出精细的结构化医学数据。其核心价值在于将非结构化的临床文本转化为机器可读的标准化格式，涵盖肿瘤直径、TNM分期、分化程度等临床关键指标。每个样本均通过唯一索引标识，确保数据溯源性，为跨语言医学自然语言处理研究提供高质量基准。

使用方法

研究人员可通过HuggingFace数据集库直接加载该资源，使用标准接口调用训练集样本。典型应用场景包括：利用双语对照数据开发医学机器翻译模型，基于结构化字段训练临床信息抽取系统，或结合原始报告与JSON标注构建端到端的医疗文本分析管道。数据加载后可直接获取日语报告文本及其对应的结构化医学实体，为 computational pathology 研究提供即用型数据支撑。

背景与挑战

背景概述

癌症基因组图谱计划作为21世纪初启动的重大生物医学研究项目，系统收集了多种癌症类型的多组学数据与临床病理报告。TCGA_Reports_ja_structured数据集基于该计划发布的英文病理报告，通过大语言模型技术实现了日语翻译与结构化处理，由研究团队在2024年完成构建。该数据集致力于解决跨语言医疗文本理解难题，为日语医学自然语言处理研究提供了重要资源，显著促进了亚洲地区癌症病理学研究的数字化转型。

当前挑战

在医疗文本处理领域，病理报告的专业术语准确翻译与关键信息结构化提取构成核心挑战。该数据集构建过程中需克服医学术语跨语言对齐的复杂性，确保肿瘤分级、TNM分期等专业概念的精确转换。同时面临非标准化原始文本的解析困难，包括处理医生手写笔记的语义歧义与临床表述的多样性。大语言模型在保持医学文本严谨性的同时，还需平衡专业准确性与自然语言流畅度的双重标准。

常用场景

经典使用场景

在癌症基因组学研究领域，TCGA_Reports_ja_structured数据集为跨语言病理报告分析提供了重要支撑。其经典应用场景聚焦于通过大语言模型实现英文病理报告的日语翻译与结构化处理，使研究人员能够系统提取脏器类型、肿瘤分化程度及TNM分期等关键临床参数，为后续的病理特征量化分析奠定基础。

衍生相关工作

基于该数据集衍生的经典研究主要集中于跨语言医学信息抽取领域。众多学者利用其双语对照特性开发了新型神经机器翻译模型，显著提升了医学术语翻译的准确性；同时催生了多模态癌症预后预测框架，将文本特征与基因组数据融合，推动了计算病理学的前沿发展。

数据集最近研究