five

LuminaAI/RCL-Cancer-Documents-Classification

收藏
Hugging Face2025-04-08 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/LuminaAI/RCL-Cancer-Documents-Classification
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于分类生物医学出版物的文本数据。每个样本存储在一个单独的文本文件中,特征以空格分隔在一行上。数据集的结构与Lumina AI的随机对比学习(RCL)算法兼容,可通过PrismRCL应用程序或API使用。数据集分为训练数据和测试数据,每个类别有单独的文件夹。所有文本文件的名称在所有类别文件夹中必须是唯一的。每个文本文件包含以空格分隔的值,代表样本的特征。数据集的使用示例包括使用PrismRCL加载数据集的命令及其参数解释。数据集遵循Creative Commons Attribution 4.0 International License许可证,原始来源是Kaggle数据集库。数据值已准备以确保与PrismRCL的兼容性,自版本2.4.0起无需归一化。

该数据集包含用于分类生物医学出版物的文本数据。每个样本存储在一个单独的文本文件中,特征以空格分隔在一行上。数据集的结构与Lumina AI的随机对比学习(RCL)算法兼容,可通过PrismRCL应用程序或API使用。数据集分为训练数据和测试数据,每个类别有单独的文件夹。所有文本文件的名称在所有类别文件夹中必须是唯一的。每个文本文件包含以空格分隔的值,代表样本的特征。数据集的使用示例包括使用PrismRCL加载数据集的命令及其参数解释。数据集遵循Creative Commons Attribution 4.0 International License许可证,原始来源是Kaggle数据集库。数据值已准备以确保与PrismRCL的兼容性,自版本2.4.0起无需归一化。
提供机构:
LuminaAI
原始信息汇总

Biomedical Text Publication Classification Dataset

概述

该数据集包含用于分类生物医学出版物的文本数据。每个样本存储在单独的文本文件中,特征以空格分隔并存储在单行中。数据集结构与Lumina AI的随机对比学习(RCL)算法兼容,可通过PrismRCL应用程序或API使用。

数据集结构

数据集按以下结构组织:

Cancer_Documents_Classification/ train_data/ category_1/ sample_0.txt sample_1.txt ... category_2/ sample_0.txt sample_1.txt ... test_data/ category_1/ sample_0.txt sample_1.txt ... category_2/ sample_0.txt sample_1.txt ...

注意:所有文本文件名在所有类别文件夹中必须是唯一的。

特征

  • 表格数据:每个文本文件包含以空格分隔的值,代表样本的特征。
  • 类别:有多个类别,每个类别根据出版物类型由单独的文件夹表示。

使用示例

以下是如何使用PrismRCL加载数据集的示例:

bash C:PrismRCLPrismRCL.exe chisquared rclticks=10 boxdown=0 data=C:path oCancer_Documents_Classification rain_data testdata=C:path oCancer_Documents_Classification est_data savemodel=C:path omodelsmymodel.classify log=C:path olog_files stopwhendone

许可证

该数据集根据知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International License)授权。详细信息请参阅LICENSE文件。

原始来源

该数据集最初来源于Kaggle数据集仓库。如果在研究或应用中使用此数据集,请引用原始来源。

附加信息

数据值已准备就绪,确保与PrismRCL兼容。截至2.4.0版本,无需进行归一化处理。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作