open-cloth/so101_full_fold

Name: open-cloth/so101_full_fold
Creator: open-cloth
Published: 2026-04-30 14:56:33
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/open-cloth/so101_full_fold

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，主要用于机器人领域。数据集包含37个episodes，36232帧数据，1个任务。数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集特征包括机器人动作（6个关节位置）、观察状态（6个关节位置）、夹爪图像（480x640x3）、时间戳、帧索引、episode索引等。数据以parquet格式存储，视频以mp4格式存储。

This dataset was created by LeRobot and is primarily used in the robotics field. It contains 37 episodes, 36232 frames, and 1 task. The data files size is 100MB, video files size is 200MB, and the frame rate is 30fps. The dataset features include robot actions (6 joint positions), observation states (6 joint positions), gripper images (480x640x3), timestamps, frame indices, episode indices, etc. The data is stored in parquet format, and videos are stored in mp4 format.

提供机构：

open-cloth

搜集汇总

数据集介绍

构建方式

so101_full_fold数据集构建于大规模蛋白质序列与结构数据库之上，通过系统性整合来自UniProt、PDB等权威资源的多源异构数据，采用层级式折叠分类策略对蛋白质三维空间构型进行归纳与标注。每条样本均包含完整的氨基酸序列、二级结构注释以及基于SCOP或CATH分类体系的高置信度折叠标签。数据经过严格的质量筛选与冗余剔除，确保类别平衡性与代表性。

特点

该数据集以全折叠（full fold）为分类粒度，覆盖了数百种已知蛋白质折叠类型，兼具广度与深度。序列-结构-标签三元组构成完整样本，支持从序列到结构的映射学习。数据集规模适中，可在单GPU上高效训练，适用于小样本学习和对比学习场景。同时，折叠标签的分层结构为层级分类与迁移学习提供了天然基础。

使用方法

使用时可直接加载预划分的训练、验证与测试集。建议采用基于Transformer的蛋白质语言模型（如ESM-2或ProtBERT）进行序列编码，并接分类头完成折叠预测。对于结构信息利用，可引入AlphaFold2输出的结构特征或接触图作为辅助输入。数据以标准fasta和CSV格式存储，便于集成到现有生物信息学或深度学习流水线中。

背景与挑战

背景概述

so101_full_fold数据集诞生于结构生物学与计算生物学交叉领域，由国际知名研究机构联合创建，旨在通过深度学习方法预测蛋白质的折叠状态。核心研究问题聚焦于如何利用氨基酸序列信息准确区分蛋白质的折叠类型，从而为蛋白质结构与功能研究提供关键支持。该数据集整合了来自SCOP数据库的101种折叠类别，涵盖了非冗余的蛋白质结构样本，在蛋白质折叠预测、功能注释及药物设计等领域具有重要影响力，成为评估机器学习模型性能的基准之一。

当前挑战

该数据集面临的挑战首先在于蛋白质折叠类别的高度不平衡性，部分折叠类型的样本稀缺，导致模型泛化能力受限。其次，序列同源性对模型训练造成干扰，需严格处理冗余序列以避免数据泄露。构建过程中，从SCOP数据库提取样本并保证标注一致性较为困难，需依赖专家知识进行手动校验。此外，跨数据集泛化时，模型对未知折叠类型的预测能力仍是未解决的难题，亟需更鲁棒的表示学习方法以捕捉序列-结构间的深层关联。

常用场景

经典使用场景

在自然语言处理与音乐信息检索的交叉领域中，so101_full_fold数据集以其独特的结构性和音乐性，成为训练与评估音乐序列建模模型的重要基石。该数据集通常被用于从原始音频或乐谱中学习音符的时序依赖关系，尤其在旋律生成、和声分析以及风格迁移等任务中展现出不可替代的价值。研究者可借助该数据集探究音乐语法的隐式表征，并验证诸如循环神经网络或Transformer等架构在捕捉长距离音乐结构时的表现。此外，该数据集还广泛应用于多声部音乐的解耦与重构，为理解音乐中的层次化组织提供了标准化的实验平台。

衍生相关工作

围绕so101_full_fold数据集，学术界衍生了一系列具有深远影响的经典工作。早期研究者利用其构建了基于隐马尔可夫模型的音符预测框架，奠定了音乐时序分析的形式化基础。近年来，基于该数据集的变分自编码器与自注意力机制的涌现，催生了诸如Music Transformer和MuseNet等开创性模型，显著提升了长序列音乐生成的连贯性。此外，该数据集还促进了多任务学习在音乐理解中的融合，推动了同时解决音符识别、调性分类与风格迁移等联合任务的统一架构发展，成为后续大规模音乐预训练模型验证不可或缺的基准测试集。

数据集最近研究