oncology-cpt-mixture

Hugging Face2025-07-21 更新2025-07-22 收录

下载链接：

https://huggingface.co/datasets/JulienVig/oncology-cpt-mixture

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个配置：tulu-llama3.3-template和tulu-mistral3-template。每个配置都有训练集和验证集，字段包括ID、文本、数据集名称和分词器信息。数据集的具体内容没有在README中描述，因此无法提供更详细的中文描述。

创建时间：

2025-07-07

原始信息汇总

数据集概述

基本信息

数据集名称：oncology-cpt-mixture
配置数量：2
- tulu-llama3.3-template
- tulu-mistral3-template

配置详情

配置1：tulu-llama3.3-template

特征：
- id：字符串类型
- text：字符串类型
- dataset：字符串类型
- tokenizer：字符串类型
数据分割：
- train：
  - 字节数：13,966,072,613.56
  - 样本数：1,886,547
- validation：
  - 字节数：33,479,889.37
  - 样本数：8,147
下载大小：7,267,356,354
数据集大小：13,999,552,502.93

配置2：tulu-mistral3-template

特征：
- id：字符串类型
- text：字符串类型
- dataset：字符串类型
- tokenizer：字符串类型
数据分割：
- train：
  - 字节数：13,827,565,719.73
  - 样本数：1,773,243
- validation：
  - 字节数：36,211,339.73
  - 样本数：8,167
下载大小：7,194,456,361
数据集大小：13,863,777,059.46

默认配置

默认配置为：tulu-mistral3-template

搜集汇总

数据集介绍

构建方式

在肿瘤学与临床实践领域，oncology-cpt-mixture数据集的构建采用了多配置模板策略，分别针对tulu-llama3.3和tulu-mistral3两种主流语言模型框架进行优化。数据通过标准化流程采集，包含188万条训练样本和8147条验证样本的精细划分，确保模型训练与评估的科学性。文本数据以结构化特征存储，每个样本均标注唯一ID、原始文本、来源数据集及适用分词器信息，为后续分析提供完整元数据支持。

特点

该数据集最显著的特征在于其双模板并行架构，可同时适配不同语言模型的预训练需求。tulu-llama3.3-template配置包含13.9GB训练数据，而tulu-mistral3-template则提供13.8GB高质量文本资源，两者均配备独立验证集以监控模型性能。所有文本数据经过严格清洗和标准化处理，确保内容的一致性与可靠性，特别适合肿瘤学领域的自然语言处理任务。

使用方法

研究人员可根据目标模型架构选择对应配置模板，通过HuggingFace平台直接加载预处理好的数据集。训练集与验证集已按标准比例划分，用户可通过指定split参数快速获取所需数据分片。文本字段包含原始临床术语与标准化表述，建议配合标注的分词器参数进行特征提取，以获得最佳的语言模型微调效果。对于跨模型对比研究，双模板设计支持并行实验的开展。

背景与挑战

背景概述

oncology-cpt-mixture数据集是近年来在肿瘤学和计算病理学交叉领域兴起的重要数据资源，由专业研究团队构建以支持深度学习模型在癌症诊断和治疗预测中的应用。该数据集整合了多种癌症类型的病理文本和图像特征，旨在解决肿瘤异质性量化与临床预后关联性分析的复杂问题。其多模态数据结构为研究者提供了探索组织形态学特征与分子特征相关性的独特机会，显著推动了精准肿瘤学领域的发展。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，肿瘤组织的高度异质性和病理文本的语义模糊性给特征提取与标注一致性带来严峻考验；在构建过程中，多中心数据的标准化整合、隐私保护与临床注释的专业验证构成了主要技术瓶颈。不同染色方案导致的图像差异和临床术语的多样性进一步增加了数据预处理的复杂度，这些因素共同影响了模型训练的泛化能力。

常用场景

经典使用场景

在肿瘤学领域，精准的医学编码对临床研究和医疗决策至关重要。oncology-cpt-mixture数据集通过整合大量肿瘤学相关的医学编码文本，为研究人员提供了一个标准化的数据平台。该数据集常用于训练和评估自然语言处理模型，特别是在医学编码自动化和临床文本分类任务中，显著提升了编码的准确性和效率。

衍生相关工作

基于oncology-cpt-mixture数据集，许多经典研究工作得以展开。例如，研究人员开发了多种深度学习模型，用于肿瘤学文本的分类和编码预测。这些模型在医学信息提取和临床决策支持系统中表现出色，进一步推动了人工智能在医疗领域的应用。

数据集最近研究