Friend-Or-Foe

Hugging Face2025-04-16 更新2025-04-14 收录

下载链接：

https://huggingface.co/datasets/powidla/Friend-Or-Foe

下载链接

链接失效反馈

官方服务：

资源简介：

Friend or Foe数据集是一个包含微生物相互作用评估的机器学习数据集，适用于机器学习管道中的特定任务。该数据集分为分类、回归、迁移学习、生成模型和聚类五个子数据集，每个子数据集都针对微生物相互作用的特定评估任务。所有数据集以.csv格式存储，部分还提供了.npy格式的环境矩阵。数据集的化合物索引与实际名称的映射关系存储在compounds.json文件中。

创建时间：

2025-04-10

原始信息汇总

数据集概述：Friend or Foe (FOF)

基本信息

名称：FOF
类型：表格型数据集
语言：英文（monolingual）
许可证：Apache-2.0
大小：10M < n < 100M
标签：生物学、合成数据

任务类别

表格分类（tabular-classification）
表格回归（tabular-regression）

数据集结构

配置（Configs）

分类任务（Classification）
- AGORA模型：
  - BC-I至BC-V（100和50样本量）
  - MC-I至MC-III（100和50样本量）
- CARVEME模型：
  - BC-I至BC-V（100和50样本量）
  - MC-I至MC-III（100和50样本量）
- 文件格式：CSV（包含train/val/test分割）
回归任务（Regression）
- AGORA模型：
  - GR-I至GR-III（100和50样本量）
- CARVEME模型：
  - GR-I至GR-III（100和50样本量）
- 文件格式：CSV（包含train/val/test分割）

数据内容

特征：化学化合物（标记为"C_j"，j的范围为1-424（AGORA）或1-499（CARVEME））
预处理：环境矩阵以.npy格式存储，包含预定义的分割
辅助文件：
- compounds.json：化合物索引与真实名称的映射
- species.json（仅聚类任务）：使用的物种名称
- 代谢模型（.mat格式）和原始环境结果（.csv格式）

其他信息

代谢模型来源：AGORA和CARVEME
环境化合物命名：参见Agora_env_compounds.xlsx（AGORA）或Bigg数据库（CARVEME）

搜集汇总

数据集介绍

构建方式

在微生物相互作用研究领域，Friend-Or-Foe数据集通过合成标注技术构建，整合了AGORA和CARVEME代谢模型的环境矩阵数据。数据集采用模块化设计，包含分类、回归、迁移学习等五大任务子集，每个子集均以CSV格式存储高维稀疏矩阵，并预置标准化的训练集/验证集/测试集划分方案。环境矩阵中的化合物特征以C_j索引标记，配套提供化合物名称映射文件和原始代谢模型文件，确保数据可追溯性。

特点

该数据集最显著的特点是覆盖微生物代谢相互作用的多元评估场景，包含100M级别样本量的结构化表格数据。数据维度上提供50和100两种特征空间规模，支持BC/MC/GR等多种实验配置。技术层面采用稀疏矩阵存储优化，配套环境矩阵的NPY预计算文件加速机器学习流程。生物医学价值体现在完整保留代谢模型原始数据，并通过标准化分割支持不同算法在统一基准下的性能对比。

使用方法

使用该数据集时需根据具体任务选择对应子集，分类任务可从Classification目录加载BC/MC系列数据，回归任务则调用GR系列文件。数据加载后需通过配套的compounds.json完成特征解码，环境矩阵可直接读取预处理的npy文件。对于高级应用场景，utils子目录提供的原始代谢模型.mat文件支持自定义特征工程。需要注意不同配置下化合物索引范围的差异，AGORA模型特征维度为423维而CARVEME为498维。

背景与挑战

背景概述

Friend-Or-Foe数据集是一个专注于微生物相互作用研究的合成数据集，由相关领域的科研团队构建，旨在通过机器学习方法评估微生物间的互作关系。该数据集涵盖了分类、回归、迁移学习、生成建模和聚类等多种机器学习任务，为微生物生态学和系统生物学研究提供了重要的数据支持。数据集以稀疏表格形式存储，包含大量化学化合物特征和环境矩阵数据，为研究者提供了丰富的分析维度。其构建基于AGORA和CARVEME代谢模型，反映了微生物在复杂环境中的代谢互作网络。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，微生物相互作用的复杂性使得准确分类和预测变得极具挑战性，尤其是当涉及多种代谢物和动态环境条件时；在构建过程中，数据合成和标注的准确性是关键挑战，需要确保生成的合成数据能够真实反映微生物互作的生物学特性。此外，数据的高维稀疏性也为机器学习模型的训练和优化带来了额外的复杂度。

常用场景

经典使用场景

在微生物组学研究领域，Friend-Or-Foe数据集通过其结构化表格数据为微生物间相互作用分析提供了标准化评估框架。该数据集最典型的应用场景体现在代谢模型驱动的分类任务中，研究者可利用AGORA和CARVEME两种代谢重建模型生成的稀疏矩阵，训练机器学习模型准确预测微生物共生或竞争关系。其精心设计的训练集/验证集/测试集划分方案，使得模型在跨物种代谢网络分析中展现出卓越的泛化能力。

实际应用

在合成生物学和精准医疗领域，该数据集支持着微生物群落工程的实际应用。医药研究者可利用其回归任务配置预测益生菌组合的代谢效益，农业科学家则通过分类模型优化土壤微生物配比。数据集提供的.npy格式预处理文件显著加速了产业级微生物相互作用分析流程，使得大规模生物反应器群落调控成为可能。

衍生相关工作

基于该数据集的特征表示，已衍生出多项微生物组机器学习的重要研究。典型工作包括基于迁移学习框架的跨模型知识迁移方法，将AGORA特征空间映射至CARVEME体系；以及结合图神经网络与代谢路径分析的深度学习方法，这些研究显著提升了微生物互作预测的解释性。数据集中提供的化合物映射文件更成为后续研究的标准参照体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集