LuminaAI/RCL-Cancer-Documents-Classification
收藏Biomedical Text Publication Classification Dataset
概述
该数据集包含用于分类生物医学出版物的文本数据。每个样本存储在单独的文本文件中,特征以空格分隔并存储在单行中。数据集结构与Lumina AI的随机对比学习(RCL)算法兼容,可通过PrismRCL应用程序或API使用。
数据集结构
数据集按以下结构组织:
Cancer_Documents_Classification/ train_data/ category_1/ sample_0.txt sample_1.txt ... category_2/ sample_0.txt sample_1.txt ... test_data/ category_1/ sample_0.txt sample_1.txt ... category_2/ sample_0.txt sample_1.txt ...
注意:所有文本文件名在所有类别文件夹中必须是唯一的。
特征
- 表格数据:每个文本文件包含以空格分隔的值,代表样本的特征。
- 类别:有多个类别,每个类别根据出版物类型由单独的文件夹表示。
使用示例
以下是如何使用PrismRCL加载数据集的示例:
bash C:PrismRCLPrismRCL.exe chisquared rclticks=10 boxdown=0 data=C:path oCancer_Documents_Classification rain_data testdata=C:path oCancer_Documents_Classification est_data savemodel=C:path omodelsmymodel.classify log=C:path olog_files stopwhendone
许可证
该数据集根据知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International License)授权。详细信息请参阅LICENSE文件。
原始来源
该数据集最初来源于Kaggle数据集仓库。如果在研究或应用中使用此数据集,请引用原始来源。
附加信息
数据值已准备就绪,确保与PrismRCL兼容。截至2.4.0版本,无需进行归一化处理。



