Atlas.Y Dataset
收藏github2024-09-26 更新2024-09-27 收录
下载链接:
https://github.com/MinmusLin/Atlas.Y_Dataset
下载链接
链接失效反馈资源简介:
Atlas.Y数据集包括两个主要部分:信号肽数据集和连接子数据集。信号肽数据集旨在促进蛋白质亚细胞定位和运输的研究,而连接子数据集则用于研究信号肽与目标蛋白质之间的连接子,帮助设计和优化融合蛋白质。
The Atlas.Y Dataset consists of two main components: the signal peptide dataset and the linker dataset. The signal peptide dataset aims to facilitate research on protein subcellular localization and transport, while the linker dataset is used to study the linkers between signal peptides and target proteins, assisting in the design and optimization of fusion proteins.
创建时间:
2024-09-26
原始信息汇总
Atlas.Y Dataset
数据集概述
Atlas.Y Dataset 是一个用于研究蛋白质亚细胞定位和运输的数据集,包含信号肽数据集和连接子数据集。该数据集遵循 Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) 许可证,允许非商业用途的分享和改编,但需给予适当的归属。如需商业使用,请联系 tongji_china2019@163.com 请求许可。
信号肽数据集
- 设计目的: 用于促进蛋白质亚细胞定位和运输的研究。
- 数据来源: 源自 Marius Thrane Ødum 等人开发的 DeepLoc 2.1 深度学习模型的数据集。
- 数据筛选: 仅包含来自真核生物的蛋白质,提取信号肽并分类,分配唯一标识符以支持高效查询。
- 适用领域: 生物信息学研究、蛋白质设计、细胞生物学实验,特别是预测亚细胞定位。
- 文件: Signal_Peptide.csv
连接子数据集
- 设计目的: 用于研究信号肽与目标蛋白质之间的连接子,辅助融合蛋白质的设计和优化,特别是在蛋白质亚细胞定位和运输研究中。
- 数据分类: 分为经典连接子数据表和自然连接子数据表。
经典连接子数据表
- 内容: 包含在文献中广泛审查和分类的连接子,基于其刚性和柔性进行分类。
- 适用领域: 蛋白质设计、分子生物学、合成生物学工程项目。
- 文件: Classical_Linker.csv
自然连接子数据表
- 内容: 包含从天然蛋白质序列中提取的短肽,未经人工优化。
- 生成方法: 通过去除信号肽和保守区域生成,基于 2021 年中山大学 iGEM 团队的方法。
- 数据来源: 使用 DeepLoc 2.1 数据集中的蛋白质序列,并使用 NCBI 的保守域数据库 (CDD) 及其批量 CD-Search 工具识别保守区域。
- 文件: Natural_Linker.csv
应用领域
该数据集广泛应用于蛋白质工程、分子设计、信号肽功能研究、生物信息学分析等领域。两个数据表为科学家提供了基础资源,支持高效查询和利用连接子序列。
AI搜集汇总
数据集介绍

构建方式
Atlas.Y数据集的构建基于对蛋白质亚细胞定位和运输研究的需求,精心筛选了来自真核生物的蛋白质数据,并从中提取了信号肽序列。这些数据源自DeepLoc 2.1深度学习模型的开发数据集,经过严格筛选和分类,赋予了独特的标识符,以便于高效查询和分析。此外,该数据集还包括了连接子和光遗传蛋白对的数据,这些数据分别从经典文献和自然蛋白质序列中提取,经过NCBI的保守域数据库(CDD)和Batch CD-Search工具的验证,确保了数据的准确性和可靠性。
特点
Atlas.Y数据集的显著特点在于其高度专业化和针对性,特别适用于生物信息学研究、蛋白质设计和细胞生物学实验。数据集中的信号肽和连接子数据为蛋白质亚细胞定位的预测提供了坚实的基础,而光遗传蛋白对的数据则为光控蛋白质相互作用的研究提供了新的视角。此外,数据集的结构设计合理,包含经典和自然连接子表,以及光敏感蛋白和受体蛋白表,这些都为科学研究提供了丰富的资源和灵活的应用方式。
使用方法
Atlas.Y数据集的使用方法多样且灵活,适用于多种生物学研究场景。研究人员可以通过查询信号肽和连接子数据,进行蛋白质亚细胞定位的预测和设计。对于光遗传学研究,数据集提供了光敏感蛋白和受体蛋白的详细信息,支持光控蛋白质相互作用的研究。此外,数据集还支持动态模块的设计,通过结合荧光蛋白,研究人员可以实时追踪和控制蛋白质在细胞内的行为。数据集的CSV格式文件便于导入和处理,支持多种生物信息学工具的使用。
背景与挑战
背景概述
Atlas.Y数据集由同济大学于2019年创建,旨在推动蛋白质亚细胞定位与运输研究。该数据集的核心研究问题集中在信号肽的识别与分类,以及其在蛋白质设计与细胞生物学实验中的应用。通过从DeepLoc 2.1模型中提取数据,并结合NCBI的保守域数据库,研究人员筛选并分类了来自真核生物的信号肽,为其赋予唯一标识符,以支持高效的查询与分析。Atlas.Y数据集不仅为生物信息学研究提供了基础资源,还对蛋白质工程、分子设计及信号肽功能研究产生了深远影响。
当前挑战
Atlas.Y数据集在构建过程中面临多项挑战。首先,信号肽的准确识别与分类需要高度专业化的生物信息学工具与方法,确保数据的准确性与可靠性。其次,数据集的多样性与覆盖范围需广泛,以支持不同生物学背景下的研究需求。此外,数据集的更新与维护也是一个持续的挑战,确保其与最新的科学发现和技术进步保持同步。最后,数据集的应用范围广泛,从基础研究到实际应用,均需确保其数据的质量与适用性,以满足不同用户的需求。
常用场景
经典使用场景
Atlas.Y数据集在蛋白质亚细胞定位和运输研究中展现了其经典应用。该数据集通过提供信号肽和连接子的详细信息,支持了蛋白质设计、分子生物学和合成生物学工程项目。特别是,信号肽数据表中的信息能够帮助研究人员预测蛋白质的亚细胞定位,而连接子数据表则为融合蛋白质的设计和优化提供了基础。此外,光遗传学蛋白质对数据表中的信息使得研究人员能够精确控制细胞内蛋白质的相互作用,从而实现对细胞反应的精准调控。
实际应用
Atlas.Y数据集在实际应用中展现了广泛的潜力。在蛋白质工程领域,研究人员可以利用信号肽和连接子数据设计新的融合蛋白质,以优化细胞内的蛋白质运输和定位。在生物技术领域,光遗传学蛋白质对数据表中的信息可以用于开发新的光控生物技术工具,如光控药物释放系统和光控细胞信号传导系统。此外,该数据集还可应用于医学研究,帮助设计新的治疗方法和诊断工具,特别是在精准医疗和个性化治疗方面。
衍生相关工作
Atlas.Y数据集的发布催生了一系列相关研究工作。例如,基于信号肽数据,研究人员开发了新的蛋白质亚细胞定位预测算法,显著提高了预测的准确性。连接子数据表则启发了多个融合蛋白质设计项目,推动了合成生物学和分子生物学的发展。光遗传学蛋白质对数据表中的信息被用于开发新的光控生物技术工具,如光控基因表达系统和光控细胞信号传导系统。这些衍生工作不仅扩展了Atlas.Y数据集的应用范围,还为相关领域的研究提供了新的思路和方法。
以上内容由AI搜集并总结生成



