TCGA_Reports_question_en

Hugging Face2025-11-13 更新2025-11-14 收录

下载链接：

https://huggingface.co/datasets/morizon/TCGA_Reports_question_en

下载链接

链接失效反馈

官方服务：

资源简介：

TCGA病理报告书数据集（英文自由描述）

创建时间：

2025-11-07

原始信息汇总

TCGA病理报告数据集（英文自由描述）概述

数据集基本信息

许可证：CC BY 4.0
数据来源：The Cancer Genome Atlas (TCGA)
语言：英语
数据规模：35,452,743字节
样本数量：9,523个
下载大小：17,360,191字节

数据特征

patient_filename：患者文件名标识符
question_en：英文病理报告正文

数据划分

训练集：9,523个样本

数据来源与版权

原始数据集：Mendeley Data - TCGA Pathology Reports (Version 1)
原始数据链接：https://data.mendeley.com/datasets/hyg5xkznpx/1
版权方：The Cancer Genome Atlas Program
许可证链接：https://creativecommons.org/licenses/by/4.0/

使用说明

本数据集基于Mendeley Data的TCGA Pathology Reports衍生创建
仅限于教育和研究用途
使用时需注明出处：Mendeley Data及TCGA Pathology Reports
数据不包含个人身份信息

搜集汇总

数据集介绍

构建方式

在生物医学信息学领域，TCGA_Reports_question_en数据集源自The Cancer Genome Atlas项目公开的病理报告资源。构建过程涉及对原始Mendeley Data存储库中TCGA Pathology Reports的规范化处理，通过文件格式转换与列名标准化，将非结构化英文病理文本整理为包含患者文件标识与报告正文的结构化数据，确保了数据的一致性与可访问性。

特点

该数据集以癌症基因组病理报告为核心，其显著特点在于收录了涵盖多种癌症类型的英文自由文本描述，每个样本均关联独立的患者文件标识符，便于追溯原始数据来源。数据规模包含近万条训练实例，文本内容专业且无个人隐私信息，为自然语言处理研究提供了高质量的领域特定语料。

使用方法

在医学人工智能应用中，该数据集适用于病理文本的挖掘与分析任务。使用者可通过加载训练分割直接获取病理报告文本与对应元数据，结合深度学习模型进行实体识别、分类或生成任务。需注意遵循CC BY 4.0许可要求，在学术研究中明确标注TCGA与Mendeley Data作为数据来源。

背景与挑战

背景概述

TCGA_Reports_question_en数据集源于癌症基因组图谱计划发布的病理报告资源，由国际顶尖医学研究机构联合构建于二十一世纪初。该数据集聚焦于癌症病理学文本的智能解析领域，通过系统整合临床诊断记录与基因组学特征，为自然语言处理技术在医学文本挖掘中的应用提供关键支撑。其核心价值在于建立了病理描述与临床诊断之间的语义关联框架，显著推动了癌症辅助诊断系统和生物医学知识图谱的发展进程。

当前挑战

该数据集面临医学专业术语标准化与语义消歧的双重挑战，需解决病理描述中同义词变异与上下文依赖性问题。在构建过程中遭遇非结构化文本解析困难，包括报告格式异构性、缩写扩展歧义以及跨机构术语差异。同时需要平衡医学隐私保护与数据可用性，确保在脱敏过程中不损失关键临床语义信息。多模态数据对齐任务亦存在挑战，需协调病理图像与文本描述之间的语义一致性。

常用场景

经典使用场景

在医学信息抽取领域，TCGA_Reports_question_en数据集为自然语言处理模型提供了高质量的病理报告文本。研究者通常利用该数据集训练命名实体识别模型，从非结构化的临床文档中自动提取关键医学实体，例如肿瘤分期、组织学类型和治疗方案。这种自动化处理显著提升了医学文献分析的效率，为后续的临床决策支持系统奠定数据基础。

解决学术问题

该数据集有效解决了临床文本挖掘中的标注数据稀缺问题。通过提供大规模真实世界的病理报告，它支持医学实体识别、关系抽取等核心研究任务的发展。其标准化格式降低了医学自然语言处理领域的入门门槛，促进了跨学科合作，对癌症基因组学与临床信息学的融合研究产生了深远影响。

衍生相关工作

基于该数据集衍生的经典工作包括TCGA病理报告知识图谱构建项目，该项目将非结构化文本转化为结构化知识表示。此外，多项研究利用该数据集开发了医学问答系统原型，这些系统能够理解临床医生的自然语言查询，并从病理报告中精准定位相关信息，推动了临床决策支持系统的智能化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集