biomed-aqa-dataset

Hugging Face2025-10-24 更新2025-10-25 收录

下载链接：

https://huggingface.co/datasets/BOBQWERA/biomed-aqa-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

BioMed AQA数据集包含327个生物医学分析问题和任务，涉及基因组学、转录组学等多种生物信息学工作流程。数据集中的每个记录都包括任务类型、任务简称、问题描述、参考里程碑和步骤等详细信息。该数据集适用于生物医学领域的分析和研究。

The BioMed AQA Dataset consists of 327 biomedical analytical questions and tasks, covering a wide range of bioinformatics workflows including genomics, transcriptomics and other related fields. Each record in the dataset contains detailed information such as task type, task abbreviation, problem description, reference milestones and implementation steps. This dataset is suitable for analysis and research within the biomedical field.

创建时间：

2025-10-23

原始信息汇总

BioMed AQA 数据集概述

数据集描述

该数据集包含327个生物医学分析问题和任务，涵盖各种生物信息学工作流程，包括基因组学、转录组学和其他分子生物学数据分析任务。

数据集结构

数据字段

每个记录包含以下字段：

task_classification：任务类型分类
task_abbr：任务缩写名称
question：主要问题或任务描述
reference_milestone_count：参考里程碑数量
reference_milestones：里程碑描述列表
reference_step_count：参考步骤数量
reference_steps：步骤描述列表
milestone_reference_files：里程碑参考文件列表
task_subclass：任务子类
dataset：数据集标识符
question_type：问题类型
test：测试标识符
files：任务所需的输入文件列表
order：顺序标识符
task：任务类别
index：记录索引

数据集统计

总记录数：327
总文件数：1,028个文件（约30 GB）

任务分类分布

O（组学分析）：96条记录
V（可视化）：96条记录
M（机器学习）：59条记录
S（统计）：58条记录
P（蛋白质分析）：18条记录

任务子类分布

RNA：42条记录
推断统计：38条记录
DNA：36条记录
基础绘图：26条记录
拟合与推断：23条记录
描述性统计：20条记录
scRNA：18条记录
Upset：18条记录
分类：16条记录
回归：14条记录
聚类：13条记录
肿瘤：12条记录
生存分析：12条记录
特征选择：10条记录
遗传：6条记录
深度学习：6条记录
其他：17条记录

问题类型分布

清晰问题：202条记录
开放问题：125条记录

数据文件

数据集引用了位于downloaded_files目录中的文件集合，包括：

FASTQ文件：283个 - 原始测序数据
TSV文件：276个 - 表格数据
GZ压缩文件：132个 - 压缩数据文件
BAM文件：比对序列数据
VCF文件：变异调用格式文件
MAF文件：突变注释格式文件
CSV文件：逗号分隔值文件
其他生物信息学文件格式

总计：1,028个文件，约31.1 GB

数据下载

数据文件存档并可从Zenodo下载：

DOI：https://doi.org/10.5281/zenodo.17430550

数据集分为30个卷存档以便下载和管理。

下载选项

选项1：下载所有文件（推荐完整数据集） bash wget https://zenodo.org/api/records/17430550/files-archive -O biomedical_dataset_all.zip

选项2：下载单个卷 每个卷独立包含数据集的子集文件夹，完整列表请访问：https://doi.org/10.5281/zenodo.17430550

提取说明

下载后提取存档文件，所有卷将提取到包含index_0001到index_0327文件夹的downloaded_files/目录。

使用方法

python import json from datasets import Dataset

加载数据集

with open(biomed_aqa_hf_dataset.json, r, encoding=utf-8) as f: data = json.load(f)

转换为HuggingFace数据集

dataset = Dataset.from_list(data)

访问样本

sample = dataset[0] print(f"Question: {sample[question]}") print(f"Task: {sample[task]}") print(f"Files: {sample[files]}")

搜集汇总

数据集介绍

构建方式

在生物信息学领域，BioMed AQA数据集通过系统整合327个生物医学分析问题构建而成，涵盖基因组学、转录组学及分子生物学等多个关键研究方向。该数据集采用结构化设计，每个记录包含任务分类、问题描述、参考步骤及关联文件等详细字段，并依托Zenodo平台存储约30GB的原始数据文件，确保数据来源的可靠性与完整性。

特点

该数据集以其广泛的任务覆盖和精细的标注体系著称，包含清晰与开放两类问题类型，任务分类涵盖组学分析、可视化、机器学习及统计建模等核心领域。其特色在于提供了丰富的生物信息学文件资源，如FASTQ、BAM和VCF等专业格式，辅以分卷存储机制，既保障了数据可访问性，又适应了不同规模的研究需求。

使用方法

用户可通过下载分卷压缩包或完整数据集，结合提供的JSON元数据文件快速加载至HuggingFace框架。利用Python脚本解析任务结构与关联文件路径后，可直接调用具体问题及其配套生物数据文件，支持从基础分析到复杂模型训练的多样化应用场景，为生物医学计算研究提供标准化输入接口。

背景与挑战

背景概述

生物医学数据分析领域正面临高通量技术产生的海量数据与分析方法标准化之间的鸿沟。BioMed AQA数据集由研究机构通过Zenodo平台于2024年发布，聚焦于生物信息学工作流程的自动化评估，涵盖基因组学、转录组学等分子生物学核心领域。该数据集通过327个结构化分析任务，构建了包含千余个生物医学数据文件的资源体系，其任务分类涵盖组学分析、机器学习、统计建模等五大类别，为生物信息学方法验证提供了标准化基准。

当前挑战

该数据集致力于解决生物医学数据分析流程的复杂性与可复现性难题，其挑战体现在多维度层面：在领域问题层面，需应对多模态生物数据（如FASTQ、BAM、VCF等）的异构性整合，以及从清晰问题到开放性问题的问题谱系覆盖；在构建过程中，面临千余个数据文件（总量达31GB）的版本管理与质量控制挑战，特别是大规模测序数据的分卷存储与跨平台兼容性问题，同时需保持分析步骤与参考标准之间的逻辑一致性。

常用场景

经典使用场景

在生物信息学领域，BioMed AQA数据集作为结构化问答资源，主要应用于多组学数据分析流程的验证与优化。该数据集通过327个涵盖基因组学、转录组学及蛋白质分析的任务单元，为研究人员提供了标准化的生物信息学工作流评估框架。其任务分类体系覆盖统计分析、机器学习建模、可视化呈现等核心环节，能够系统检验生物信息学工具在真实科研场景中的适用性。

实际应用

在临床医学研究场景中，该数据集支撑着精准医疗决策系统的开发。肿瘤基因组变异分析模块可用于构建突变注释流程，单细胞RNA测序任务则指导细胞分型算法的优化。药物研发机构借助其蛋白质分析任务加速靶点识别，而公共卫生领域则利用其统计建模单元进行疾病风险预测，切实推动生物医学研究向数据驱动范式转型。

衍生相关工作

基于该数据集衍生的经典研究包括自动化生物信息学工作流生成系统，其里程碑标注体系启发了多步骤分析任务的智能规划算法。在教育科技领域催生了交互式生物信息学教学平台，而开放性问题模块则促进了对话式生物医学分析助手的发展。这些衍生工作共同推动了生物信息学方法学与人工智能技术的深度融合。

以上内容由遇见数据集搜集并总结生成

BOBQWERA/biomed-aqa-dataset

BioMed AQA数据集包含327个生物医学分析问题和任务，涵盖了包括基因组学、转录组学在内的多种生物信息学工作流程以及其他分子生物学数据分析任务。数据集的每条记录包含任务类型、任务简称、问题描述、参考里程碑数量、参考里程碑描述、参考步骤数量、参考步骤描述、里程碑参考文件、任务子类、数据集标识、问题类型、测试标识、输入文件、顺序标识、任务类别和记录索引等字段。数据集分为五大类任务：Omics分析

Hugging Face2025-10-24 更新120

Fitness-AQA

为了防止受伤并最大程度地增加肌肉质量，必须分析一个人在运动过程中的姿势。在这项工作中，我们提出了一种基于计算机视觉的方法来检测锻炼形式中的错误。我们的方法在现实世界的健身房场景中特别适用/有用，在这些场景中，由于相机记录角度，服装风格，健身器材等具有挑战性的因素，现成的姿势估计器无法有效地捕获人的姿势。我们应用我们的系统在三个练习中检测姿势错误: 1) 后蹲; 2) 顶头; 和3) Barbell

OpenXLab70

AQA-WebCorp

AQA-WebCorp是一个专为阿拉伯语问答系统设计的网络数据集，由突尼斯斯法克斯经济与管理学院和法国艾克斯-马赛大学合作创建。该数据集包含115对问题和文本，主要从网络论坛和FAQ中收集，旨在解决阿拉伯语自然语言处理中的问题。创建过程中，研究者开发了Java脚本从网络提取文本，并通过Google搜索引擎进行数据收集。AQA-WebCorp的应用领域包括机器翻译、信息检索和问答系统，旨在提供一个高

arXiv2017-09-27 更新550

af3-aqa/af3-aqa

一个干净的时间分割基准，用于在391个保留的簇对代表案例（保留在2025年6月30日之后，与AF3训练分布无簇重叠）上对AlphaFold3抗体-抗原（Ab-Ag）诱饵进行排序。对于每个（抗体，抗原）对，AF3生成100个（task1）或1000个（task2）不同种子的诱饵。该基准评估排序器将最高DockQ诱饵选为top-1的能力。

Hugging Face2026-05-07 更新00

AQA-7

AQA-7 是一个用于动作质量评估（AQA）的统一基准数据集，旨在通过整合多个领域的数据集来标准化评估方法。该数据集包含视频、骨骼数据和多模态输入，涵盖了体育分析、技能评估和医疗护理等多个应用领域。数据集的创建过程通过系统分析现有文献和实验协议，确保了评估的准确性和计算效率。AQA-7 的应用领域广泛，旨在解决动作质量评估中的偏差问题，提供客观的自动化评估，特别是在体育评分、技能评估和康复训练中具

arXiv2024-12-15 更新5180