merged_3way_cancer_dataset

Hugging Face2025-06-24 更新2025-06-25 收录

下载链接：

https://huggingface.co/datasets/rubentium/merged_3way_cancer_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个三合一的数据集，包括大约170万份来自allenai/peS2o学术文章数据集的样本，这些样本通过特定的查询进行了筛选；大约4.7万份来自allenai/tulu-3-sft-mixture的指令微调数据；以及来自HuggingFaceFW/fineweb-edu的约5万份FineWeb精选子集样本。合并这些数据集时，对缺失的JSON键填充了`None`，并将所有整数和浮点数转换为浮点数，缺失的数值用`-inf`代替。数据集默认是连接而非随机排序的，如果需要随机排序，加载后可调用`shuffle()`方法。

创建时间：

2025-06-11

原始信息汇总

数据集概述：merged_3way_cancer_dataset

数据集组成

PeS2o_cancer
- 来源：allenai/peS2o学术论文数据集
- 筛选条件：关键词(cancer | oncology | tumor | tumour | oncogene | malignancy) + ((patient | human | rat | mouse) | (safety + dog))
- 数据量：约170万条
- 时间范围：截至2023年1月
Tulu_3_sft_mixture
- 来源：allenai/tulu-3-sft-mixture指令调优数据集
- 数据量：约4.7万条（采样）
FineWeb_edu
- 来源：HuggingFaceFW/fineweb-edu（FineWeb的精选子集）
- 数据量：约5万条

数据处理

合并方式：直接拼接（未打乱顺序），需手动调用shuffle()
字段处理：
- 缺失键填充为None
- 数值类型统一转为float
- 缺失数值替换为-inf

许可信息

许可证类型：MIT

搜集汇总

数据集介绍

构建方式

在生物医学研究领域，精准的癌症相关数据整合对学术进展至关重要。该数据集通过三重融合策略构建：首先从allenai/peS2o学术论文数据集中筛选包含癌症相关术语及生物实验关键词的170万条样本；继而采样allenai/tulu-3-sft-mixture指令微调数据4.7万条作为补充；最后融入HuggingFaceFW/fineweb-edu教育类精选数据5万条。技术处理上采用统一字段填充与数值类型转换机制，缺失值以负无穷标记，确保数据结构的一致性。

使用方法

该数据集的设计充分考虑了研究者的实操需求。加载后可通过shuffle()函数实现数据随机化，满足机器学习模型的训练要求。使用时应特别注意数值字段中-inf代表的缺失值处理，建议结合领域知识进行合理插补或排除。对于多任务学习场景，建议依据各子集特性建立差异化的预处理流程，如对学术文本采用术语标准化处理，对指令数据保持原始对话结构。

背景与挑战

背景概述

merged_3way_cancer_dataset是由三个不同来源的数据集合并而成的综合性数据集，专注于癌症研究领域。该数据集由多个研究机构共同构建，包括Allen Institute for AI和Hugging Face等知名机构，数据收集时间截至2023年1月。其核心研究问题聚焦于癌症、肿瘤学及相关领域的学术文献分析，结合了指令调优数据和精选的网络教育数据，旨在为癌症研究提供更全面的数据支持。这一数据集的构建不仅丰富了癌症研究的数据资源，还为自然语言处理在医学领域的应用提供了新的可能性。

当前挑战

该数据集在构建过程中面临多重挑战。从领域问题来看，癌症研究涉及复杂的医学术语和多样化的数据类型，如何准确提取和整合相关信息是关键难点。在技术层面，数据集的合并需要处理不同来源数据的格式差异，包括填充缺失键、统一数值类型以及处理缺失值。此外，原始数据集未经过洗牌，用户需自行处理数据顺序问题，这在一定程度上增加了使用复杂度。这些挑战反映了多源异构数据整合的普遍难题，也为后续研究提供了改进方向。

常用场景

经典使用场景

在肿瘤学研究领域，merged_3way_cancer_dataset通过整合学术论文、指令微调数据和精选网络文本，为研究者提供了跨模态的癌症相关数据资源。该数据集特别适用于开发能够理解医学术语、解析临床文献的机器学习模型，其多源异构特性使得模型能够同时掌握严谨的学术表达和通俗的医学描述。

解决学术问题

该数据集有效解决了癌症研究中数据碎片化的问题，通过融合1.7M篇经筛选的学术文献、47K条指令数据及50K条教育类网络文本，构建了覆盖基础研究到临床应用的完整知识谱系。这种整合显著提升了模型在肿瘤学术语理解、治疗方案推荐等NLP任务中的表现，为医学人工智能研究提供了标准化基准。

实际应用

在实际医疗场景中，该数据集支撑的智能系统可辅助医生快速检索最新癌症研究成果，自动生成患者易懂的治疗方案说明。其包含的啮齿类动物实验数据与人类临床数据的对照关系，为新药研发提供了跨物种研究的文本依据，显著缩短了科研文献的查阅时间。

数据集最近研究