LuminaAI/RCL-Cancer-Documents-Classification

Name: LuminaAI/RCL-Cancer-Documents-Classification
Creator: LuminaAI
Published: 2025-04-08 18:58:30
License: 暂无描述

Hugging Face2025-04-08 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/LuminaAI/RCL-Cancer-Documents-Classification

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于分类生物医学出版物的文本数据。每个样本存储在一个单独的文本文件中，特征以空格分隔在一行上。数据集的结构与Lumina AI的随机对比学习（RCL）算法兼容，可通过PrismRCL应用程序或API使用。数据集分为训练数据和测试数据，每个类别有单独的文件夹。所有文本文件的名称在所有类别文件夹中必须是唯一的。每个文本文件包含以空格分隔的值，代表样本的特征。数据集的使用示例包括使用PrismRCL加载数据集的命令及其参数解释。数据集遵循Creative Commons Attribution 4.0 International License许可证，原始来源是Kaggle数据集库。数据值已准备以确保与PrismRCL的兼容性，自版本2.4.0起无需归一化。

提供机构：

LuminaAI

原始信息汇总

Biomedical Text Publication Classification Dataset

概述

该数据集包含用于分类生物医学出版物的文本数据。每个样本存储在单独的文本文件中，特征以空格分隔并存储在单行中。数据集结构与Lumina AI的随机对比学习（RCL）算法兼容，可通过PrismRCL应用程序或API使用。

数据集结构

数据集按以下结构组织：

Cancer_Documents_Classification/ train_data/ category_1/ sample_0.txt sample_1.txt ... category_2/ sample_0.txt sample_1.txt ... test_data/ category_1/ sample_0.txt sample_1.txt ... category_2/ sample_0.txt sample_1.txt ...

注意：所有文本文件名在所有类别文件夹中必须是唯一的。

特征

表格数据：每个文本文件包含以空格分隔的值，代表样本的特征。
类别：有多个类别，每个类别根据出版物类型由单独的文件夹表示。

使用示例

以下是如何使用PrismRCL加载数据集的示例：

bash C:PrismRCLPrismRCL.exe chisquared rclticks=10 boxdown=0 data=C:path oCancer_Documents_Classification rain_data testdata=C:path oCancer_Documents_Classification est_data savemodel=C:path omodelsmymodel.classify log=C:path olog_files stopwhendone

许可证

该数据集根据知识共享署名4.0国际许可协议（Creative Commons Attribution 4.0 International License）授权。详细信息请参阅LICENSE文件。

原始来源

该数据集最初来源于Kaggle数据集仓库。如果在研究或应用中使用此数据集，请引用原始来源。

附加信息

数据值已准备就绪，确保与PrismRCL兼容。截至2.4.0版本，无需进行归一化处理。

5,000+

优质数据集

54 个

任务类型

进入经典数据集