five

Bio Datasets

收藏
github2024-11-07 更新2024-11-08 收录
下载链接:
https://github.com/Bio-Datasets/bio-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
将生物数据(包括分子等)引入Hugging Face Datasets库。这个(非官方的!)扩展旨在使以下操作尽可能简单:1. 高效存储生物数据用于机器学习;2. 低开销地将数据加载到标准化的Python对象中,便于下游处理;3. 共享大小数据集。

Integrating biological data (including molecules and other similar entities) into the Hugging Face Datasets library. This (unofficial!) extension aims to simplify the following tasks as much as possible: 1. Efficiently store biological data for machine learning; 2. Load data into standardized Python objects with low overhead to facilitate downstream processing; 3. Share datasets of all sizes.
创建时间:
2024-10-10
原始信息汇总

Bio Datasets

概述

Bio Datasets 是一个非官方扩展,旨在将生物数据(如分子等)引入 HuggingFace Datasets 库,主要目标包括:

  1. 高效存储生物数据以供机器学习使用。
  2. 低开销地将数据加载到标准化的 Python 对象中,便于下游处理。
  3. 共享大小不一的数据集。

支持的生物分子结构数据格式

特征名称 存储格式 加载格式
AtomArrayFeature / ProteinAtomArrayFeature 笛卡尔坐标或离散内部坐标的数组及注释 biotite.structure.AtomArray / bio_datasets.ProteinChain / bio_datasets.ProteinComplex
StructureFeature / ProteinStructureFeature 嵌入到 Parquet 列中的字节字符串编码文件格式:PDB / 压缩 PDB (gzip / foldcomp fcz) biotite.structure.AtomArray / bio_datasets.ProteinChain / bio_datasets.ProteinComplex

安装

bash git clone https://github.com/alex-hh/bio-datasets.git && cd bio-datasets pip install .

使用示例

从 Hub 加载数据

python import foldcomp import bio_datasets # 注册自定义特征类型 from datasets import load_dataset

dataset = load_dataset( "biodatasets/afdb_e_coli", split="train", ) ex = dataset[0] # 包含 namestructure 键的字典 print(type(ex["structure"]))

输出:

<class bio_datasets.structure.protein.protein.ProteinChain>

创建自定义数据集

python from datasets import Dataset, Features from bio_datasets import ProteinStructureFeature

def examples_generator(pdb_file_list): for file_path in pdb_file_list: yield {"structure": {"path": file_path}}

features = Features(structure=ProteinStructureFeature(encode_with_foldcomp=True)) ds = Dataset.from_generator(examples_generator, gen_kwargs={"pdb_file_list": pdb_file_list}, features=features) ds[0]

ds.push_to_hub(HUB_REPO_ID)

性能优化

  • bio_datasets.StructureFeature 数据存储为 PDB 格式字节字符串,自动转换为 biotite.AtomArray 格式。
  • 支持使用 bio_datasets.AtomArrayFeature 类型进行更快的迭代。

未来计划

  • 支持其他生物数据类型,如蛋白质-配体复合物、分子动力学、单细胞/组学等。

贡献

欢迎代码贡献、新数据格式/特征类型的建议,以及共享兼容的生物数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
Bio Datasets数据集的构建方式旨在优化生物数据的存储与加载,特别针对生物分子结构数据。通过扩展HuggingFace Datasets库,Bio Datasets引入了专门用于生物数据的Feature类型,如AtomArrayFeature和StructureFeature,这些类型支持多种存储格式(如PDB、mmCIF、binaryCIF)和加载格式(如biotite.structure.AtomArray)。这种设计使得数据在存储时能够高效压缩,而在加载时能够迅速转换为机器学习就绪的Python对象。此外,Bio Datasets还提供了蛋白质特化的Feature类型,如ProteinAtomArrayFeature和ProteinStructureFeature,进一步优化了蛋白质结构数据的处理。
特点
Bio Datasets数据集的主要特点在于其高效的数据存储与加载机制。通过使用专门的Feature类型,数据集能够在存储时采用高效的压缩格式,如foldcomp,同时在加载时自动解码为便于下游处理的Python对象。此外,数据集支持多种生物分子结构数据的格式,包括PDB、mmCIF和binaryCIF,确保了广泛的兼容性。蛋白质特化的Feature类型进一步提升了蛋白质结构数据处理的效率和便捷性。
使用方法
使用Bio Datasets数据集时,用户可以通过pip安装并加载预配置的生物数据集。加载数据集后,数据点将以Python字典的形式返回,其中包含的生物分子结构数据已被标准化为bio_datasets.ProteinChain对象。用户还可以通过配置Feature类型,自定义数据集的构建和共享方式,从而实现从本地文件到高效存储格式的转换。此外,Bio Datasets提供了性能优化选项,如使用AtomArrayFeature类型加速数据迭代,以及支持foldcomp压缩以减少存储空间。
背景与挑战
背景概述
Bio Datasets,作为非官方扩展,旨在将生物数据(包括分子结构等)引入HuggingFace的Datasets库。该数据集由匿名研究团队开发,专注于生物数据的高效存储、低开销加载以及数据的标准化处理,以便于机器学习应用。其核心研究问题在于如何优化生物数据的存储与加载格式,以支持大规模数据的快速处理与共享。Bio Datasets的推出,极大地简化了生物数据在机器学习模型中的应用流程,对生物信息学和计算生物学领域具有重要推动作用。
当前挑战
Bio Datasets面临的挑战主要集中在两个方面:首先是生物数据格式的多样性和复杂性,导致在存储和加载过程中需要处理多种文件格式(如PDB、mmCIF等),这增加了数据处理的复杂度。其次,数据的高效存储与快速加载之间的平衡问题,如何在保证数据压缩效率的同时,确保加载速度和数据完整性,是该数据集在构建过程中遇到的主要难题。此外,如何确保数据在不同用户和平台之间的兼容性和可移植性,也是Bio Datasets需要解决的重要问题。
常用场景
经典使用场景
Bio Datasets 数据集的经典使用场景主要集中在生物信息学领域,特别是分子生物学和机器学习的交叉应用。该数据集通过高效的存储和加载机制,使得生物分子结构数据能够快速转换为机器学习模型可用的格式。例如,研究人员可以利用该数据集加载蛋白质结构数据,并将其转换为 `biotite.structure.AtomArray` 或 `bio_datasets.ProteinChain` 对象,从而进行蛋白质结构预测、功能注释等任务。
衍生相关工作
Bio Datasets 数据集的推出催生了一系列相关研究和工作。例如,基于该数据集,研究人员开发了多种蛋白质结构预测模型,这些模型在学术界和工业界都得到了广泛应用。此外,该数据集还促进了生物数据标准化和共享机制的研究,推动了生物信息学领域的标准化进程。通过提供高效的生物数据存储和加载解决方案,Bio Datasets 数据集为后续研究提供了坚实的基础,激发了更多创新性工作的开展。
数据集最近研究
最新研究方向
在生物数据领域,Bio Datasets数据集的最新研究方向主要集中在优化生物数据的存储与加载效率,以及推动生物分子结构数据的机器学习应用。通过扩展HuggingFace Datasets库,该数据集致力于提供高效的生物数据存储格式,如PDB、mmCIF和binaryCIF,并支持快速转换为适用于机器学习的Python对象。此外,研究还探索了蛋白质结构数据的特定存储格式,如foldcomp,以进一步提升数据处理速度和存储效率。这些研究不仅促进了生物数据的标准化和共享,还为生物信息学和药物设计等领域的研究提供了强有力的支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作