BioSets
收藏BioSets: 生物数据集创建工具
概述
BioSets 是一个基于 datasets 库构建的工具,用于加载、操作和处理生物数据集,以支持机器学习目的。它支持基因组学、转录组学、蛋白质组学、代谢组学和其他类型的生物数据。
功能
- 加载样本元数据和特征元数据:BioSets 加载样本元数据和特征元数据。
- 支持多种生物数据类型:包括基因组变异、基因表达数据、临床试验数据和OTU表的预定义类。
- 自动样本/批次检测:自动检测加载数据中的样本和批次信息,以处理批次效应和混杂因素。
- 自定义数据集创建:创建具有特定特征、元数据和标签的自定义数据集。
- 与
datasets库集成:BioSets 建立在datasets库的功能之上。
入门指南
安装
使用 pip 安装 BioSets: bash pip install biosets
创建生物数据集
-
组织数据:将生物数据准备为 BioSets 可以处理的结构化格式(例如,相关文件的目录)。
-
加载数据和元数据:使用
load_dataset()加载数据以及样本元数据和特征元数据: python from biosets import load_datasetdataset = load_dataset( "snp", data_files="/path/to/snp_data.csv", sample_metadata_files="/path/to/sample_metadata.csv", feature_metadata_files="/path/to/feature_metadata.csv", )
-
利用元数据进行分析:加载的数据集允许您访问和使用元数据进行下游分析。
数据集示例
加载特定实验数据
使用特定实验类型加载数据,例如 otu、maldi、rna 或 snp:
-
OTU 数据: python dataset = load_dataset("otu", data_files="/path/to/otu_data.csv")
-
RNA 数据: python dataset = load_dataset("rna", data_files="/path/to/rna_data.csv")
-
SNP 数据: python dataset = load_dataset("snp", data_files="/path/to/snp_data.csv")
下一步
创建生物数据集后,可以使用 BioSets 进行特征提取、模型训练或数据可视化。
贡献
欢迎贡献!如果您有改进建议或新功能,请打开问题或提交拉取请求。对于重大更改,请先打开问题进行讨论。
许可证
该项目根据 Apache 2.0 许可证授权。有关更多详细信息,请参阅 LICENSE 文件。




