Bio Datasets

github2024-11-07 更新2024-11-08 收录

下载链接：

https://github.com/Bio-Datasets/bio-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

将生物数据（包括分子等）引入Hugging Face Datasets库。这个（非官方的！）扩展旨在使以下操作尽可能简单：1. 高效存储生物数据用于机器学习；2. 低开销地将数据加载到标准化的Python对象中，便于下游处理；3. 共享大小数据集。

Integrating biological data (including molecules and other similar entities) into the Hugging Face Datasets library. This (unofficial!) extension aims to simplify the following tasks as much as possible: 1. Efficiently store biological data for machine learning; 2. Load data into standardized Python objects with low overhead to facilitate downstream processing; 3. Share datasets of all sizes.

创建时间：

2024-10-10

原始信息汇总

Bio Datasets

概述

Bio Datasets 是一个非官方扩展，旨在将生物数据（如分子等）引入 HuggingFace Datasets 库，主要目标包括：

高效存储生物数据以供机器学习使用。
低开销地将数据加载到标准化的 Python 对象中，便于下游处理。
共享大小不一的数据集。

支持的生物分子结构数据格式

特征名称	存储格式	加载格式
AtomArrayFeature / ProteinAtomArrayFeature	笛卡尔坐标或离散内部坐标的数组及注释	`biotite.structure.AtomArray` / `bio_datasets.ProteinChain` / `bio_datasets.ProteinComplex`
StructureFeature / ProteinStructureFeature	嵌入到 Parquet 列中的字节字符串编码文件格式：PDB / 压缩 PDB (gzip / foldcomp fcz)	`biotite.structure.AtomArray` / `bio_datasets.ProteinChain` / `bio_datasets.ProteinComplex`

安装

bash git clone https://github.com/alex-hh/bio-datasets.git && cd bio-datasets pip install .

使用示例

从 Hub 加载数据

python import foldcomp import bio_datasets # 注册自定义特征类型 from datasets import load_dataset

dataset = load_dataset( "biodatasets/afdb_e_coli", split="train", ) ex = dataset[0] # 包含 name 和 structure 键的字典 print(type(ex["structure"]))

输出：

创建自定义数据集

python from datasets import Dataset, Features from bio_datasets import ProteinStructureFeature

def examples_generator(pdb_file_list): for file_path in pdb_file_list: yield {"structure": {"path": file_path}}

features = Features(structure=ProteinStructureFeature(encode_with_foldcomp=True)) ds = Dataset.from_generator(examples_generator, gen_kwargs={"pdb_file_list": pdb_file_list}, features=features) ds[0]

ds.push_to_hub(HUB_REPO_ID)

性能优化

bio_datasets.StructureFeature 数据存储为 PDB 格式字节字符串，自动转换为 biotite.AtomArray 格式。
支持使用 bio_datasets.AtomArrayFeature 类型进行更快的迭代。

未来计划

支持其他生物数据类型，如蛋白质-配体复合物、分子动力学、单细胞/组学等。

贡献

欢迎代码贡献、新数据格式/特征类型的建议，以及共享兼容的生物数据集。

搜集汇总

数据集介绍

构建方式

Bio Datasets数据集的构建方式旨在优化生物数据的存储与加载，特别针对生物分子结构数据。通过扩展HuggingFace Datasets库，Bio Datasets引入了专门用于生物数据的Feature类型，如AtomArrayFeature和StructureFeature，这些类型支持多种存储格式（如PDB、mmCIF、binaryCIF）和加载格式（如biotite.structure.AtomArray）。这种设计使得数据在存储时能够高效压缩，而在加载时能够迅速转换为机器学习就绪的Python对象。此外，Bio Datasets还提供了蛋白质特化的Feature类型，如ProteinAtomArrayFeature和ProteinStructureFeature，进一步优化了蛋白质结构数据的处理。

特点

Bio Datasets数据集的主要特点在于其高效的数据存储与加载机制。通过使用专门的Feature类型，数据集能够在存储时采用高效的压缩格式，如foldcomp，同时在加载时自动解码为便于下游处理的Python对象。此外，数据集支持多种生物分子结构数据的格式，包括PDB、mmCIF和binaryCIF，确保了广泛的兼容性。蛋白质特化的Feature类型进一步提升了蛋白质结构数据处理的效率和便捷性。

使用方法

使用Bio Datasets数据集时，用户可以通过pip安装并加载预配置的生物数据集。加载数据集后，数据点将以Python字典的形式返回，其中包含的生物分子结构数据已被标准化为bio_datasets.ProteinChain对象。用户还可以通过配置Feature类型，自定义数据集的构建和共享方式，从而实现从本地文件到高效存储格式的转换。此外，Bio Datasets提供了性能优化选项，如使用AtomArrayFeature类型加速数据迭代，以及支持foldcomp压缩以减少存储空间。

背景与挑战

背景概述

Bio Datasets，作为非官方扩展，旨在将生物数据（包括分子结构等）引入HuggingFace的Datasets库。该数据集由匿名研究团队开发，专注于生物数据的高效存储、低开销加载以及数据的标准化处理，以便于机器学习应用。其核心研究问题在于如何优化生物数据的存储与加载格式，以支持大规模数据的快速处理与共享。Bio Datasets的推出，极大地简化了生物数据在机器学习模型中的应用流程，对生物信息学和计算生物学领域具有重要推动作用。

当前挑战

Bio Datasets面临的挑战主要集中在两个方面：首先是生物数据格式的多样性和复杂性，导致在存储和加载过程中需要处理多种文件格式（如PDB、mmCIF等），这增加了数据处理的复杂度。其次，数据的高效存储与快速加载之间的平衡问题，如何在保证数据压缩效率的同时，确保加载速度和数据完整性，是该数据集在构建过程中遇到的主要难题。此外，如何确保数据在不同用户和平台之间的兼容性和可移植性，也是Bio Datasets需要解决的重要问题。

常用场景

经典使用场景

Bio Datasets 数据集的经典使用场景主要集中在生物信息学领域，特别是分子生物学和机器学习的交叉应用。该数据集通过高效的存储和加载机制，使得生物分子结构数据能够快速转换为机器学习模型可用的格式。例如，研究人员可以利用该数据集加载蛋白质结构数据，并将其转换为 `biotite.structure.AtomArray` 或 `bio_datasets.ProteinChain` 对象，从而进行蛋白质结构预测、功能注释等任务。

衍生相关工作

Bio Datasets 数据集的推出催生了一系列相关研究和工作。例如，基于该数据集，研究人员开发了多种蛋白质结构预测模型，这些模型在学术界和工业界都得到了广泛应用。此外，该数据集还促进了生物数据标准化和共享机制的研究，推动了生物信息学领域的标准化进程。通过提供高效的生物数据存储和加载解决方案，Bio Datasets 数据集为后续研究提供了坚实的基础，激发了更多创新性工作的开展。

数据集最近研究