AI4FA-Goldberg

Hugging Face2026-01-10 更新2026-01-11 收录

下载链接：

https://huggingface.co/datasets/hugging-science/AI4FA-Goldberg

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于食物过敏分类探索性研究的实验性微生物组数据集。数据集包含多种数据模态（DNA嵌入、微生物组嵌入、原始DNA序列），并在多个时间点（1、2、3、6、12、24、36个月）进行纵向收集。数据集按数据类型和时间点组织，包括DNA嵌入（.h5文件）、微生物组嵌入（.h5文件）和DNA序列（.csv文件）。每个时间点包含每个受试者的多个样本。数据集旨在用于食物过敏的分类研究，用户需要自行定义训练/测试分割，并注意在受试者级别进行分割以避免数据泄漏。数据集是研究导向的，尚未准备好用于基准测试。

创建时间：

2026-01-09

原始信息汇总

Food Allergy Microbiome Dataset (Experimental) 数据集概述

数据集摘要

这是一个实验性微生物组数据集，旨在用于食物过敏分类的探索性研究。该数据集包含在多个时间点纵向收集的多种数据模态（DNA嵌入、微生物组嵌入、原始DNA序列）。

警告： 此数据集是实验性的。其结构已为正在进行的研究而冻结，不适用于基准测试。

数据集结构

数据集按数据类型和时间点组织：

DNA嵌入：包含从DNA序列衍生的嵌入向量的.h5文件。
微生物组嵌入：包含微生物组特征向量的.h5文件。
DNA序列：代表序列或处理特征的原始.csv文件。

每个时间点包含每个受试者的多个样本。 文件名（例如DRS061544.csv）用作样本ID。受试者ID和映射是隐含的；用户必须谨慎处理。

预期用途

任务：探索性食物过敏分类。
用户需要定义自己的训练/测试分割。
关键： 切勿随机分割样本；每个受试者存在多个样本。分割应在受试者层面进行，以避免数据泄露。

数据说明

纵向性：样本在多个月份（1、2、3、6、12、24、36）收集。
多模态：嵌入和序列单独提供；用户可根据需要组合它们。
文件中未嵌入标签。标签必须单独处理或从内部记录中映射。
此数据集专注于研究，非基准测试就绪。

许可证

此实验性数据集目前根据Apache License 2.0发布。

搜集汇总

数据集介绍

构建方式

在微生物组学与食物过敏研究的交叉领域，AI4FA-Goldberg数据集通过纵向追踪设计构建而成。该数据集系统采集了多个时间点的样本，涵盖1至36个月的不同阶段，并整合了DNA序列、DNA嵌入向量及微生物组嵌入向量等多模态数据。数据以分层目录结构组织，每种数据类型按时间点独立存放，确保了原始序列与衍生特征的可追溯性。

特点

该数据集的核心特点在于其纵向多模态性质，能够支持时间动态分析。数据涵盖DNA序列、序列嵌入及微生物组嵌入三种形式，为探索微生物特征与食物过敏的关联提供了丰富维度。值得注意的是，数据未内置样本标签，且同一受试者在不同时间点存在多个样本，要求使用者基于受试者层级进行划分以避免数据泄露，这体现了数据集面向探索性研究的定位。

使用方法

使用本数据集时，研究者需首先理解其纵向与多模态结构，并自行管理样本与受试者的映射关系。由于数据未提供内置标签，用户需要结合外部临床信息进行标注。在进行模型训练与评估时，必须依据受试者ID划分训练集与测试集，确保同一受试者的所有样本仅出现在单一集合中，以维持评估的严谨性。数据以H5和CSV格式存储，支持灵活的特征提取与融合分析。

背景与挑战

背景概述

在精准医学与微生物组学交叉领域，食物过敏的机制研究长期面临复杂生物标志物识别的挑战。AI4FA-Goldberg数据集作为一个实验性微生物组数据集，由相关研究团队创建，旨在通过纵向多模态数据探索食物过敏的分类问题。该数据集整合了DNA序列、微生物组嵌入向量等多种数据类型，并在多个时间点进行采集，为核心研究问题——即揭示微生物组动态变化与食物过敏发生发展的关联——提供了宝贵的数据资源。其设计体现了计算生物学领域对高通量、时序性生物信息分析的前沿需求，为后续机器学习模型在过敏性疾病预测与机理阐释方面的应用奠定了初步基础。

当前挑战

该数据集致力于解决食物过敏分类这一复杂生物医学问题，其挑战在于如何从高维、稀疏且具时序依赖性的微生物组数据中，提取稳健且可解释的生物特征以区分过敏状态。构建过程中的挑战尤为显著：数据采集需跨越多个时间点，确保样本一致性与纵向可比性；多模态数据（如原始DNA序列与嵌入向量）的整合与对齐要求精细的预处理流程；此外，数据缺乏显式标签与明确受试者映射，增加了分析难度，并要求用户严格遵循受试者级别的数据划分策略以避免信息泄露，这些因素共同构成了该实验数据集在研究与实际应用中的主要障碍。

常用场景

经典使用场景

在微生物组学与食物过敏研究的交叉领域，AI4FA-Goldberg数据集为探索性分类任务提供了关键支持。该数据集通过整合纵向时间点的多模态数据，包括DNA嵌入、微生物组嵌入及原始DNA序列，使研究者能够构建时间动态模型，分析微生物组在个体发育早期对食物过敏风险的潜在影响。经典使用场景涉及利用这些时序特征，训练机器学习模型以识别与过敏状态相关的微生物标志物，从而深化对过敏发生机制的理解。

解决学术问题

该数据集主要解决了食物过敏早期预测与机制阐释中的若干学术难题。通过提供跨多个时间点的纵向微生物组数据，它支持研究者探究微生物群落演替与过敏表型之间的因果关系，克服了传统横断面研究在时序推断上的局限。此外，多模态数据的融合有助于揭示DNA序列特征与高阶嵌入表示之间的互补性，为构建更稳健的分类模型奠定基础，推动了精准医学在过敏性疾病领域的应用。

衍生相关工作

基于AI4FA-Goldberg数据集，已衍生出多项经典研究工作。例如，研究者利用其纵向多模态特性，开发了时序深度学习框架，以捕捉微生物组动态变化与过敏发展的关联。另有工作专注于多模态数据融合技术，通过结合DNA序列与嵌入表示提升分类性能。这些研究不仅推动了计算生物学方法的发展，也为食物过敏的微生物组机制研究开辟了新路径，促进了跨学科合作与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集