Symphony of Fate Dataset
收藏github2024-11-13 更新2024-11-28 收录
下载链接:
https://github.com/wyqmath/Symphony_of_Fate
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自NCBI、UniProt、SABIO-RK和EBI数据库的蛋白质FASTA序列、Kcat和km值。这些数据用于将蛋白质序列转换为音频文件和光谱图,并通过机器学习模型预测蛋白质功能。
This dataset contains protein FASTA sequences, Kcat and km values sourced from NCBI, UniProt, SABIO-RK, and EBI databases. These data are utilized to convert protein sequences into audio files and spectrograms, and predict protein functions via machine learning models.
创建时间:
2024-11-12
原始信息汇总
Symphony of Fate: Weaving Life through the Music of Amino Acids
作者信息
- Xu Wang<sup>1, 3, a*</sup>
- Yiquan Wang<sup>2, 3, b</sup>
- Yuhua Dong<sup>1, c</sup>
- Chen Jin<sup>4, d</sup>
机构
- 吉林大学通信工程学院,中国吉林省长春市,130000
- 新疆大学数学与系统科学学院,中国新疆乌鲁木齐市,830046
- 深圳X-Institute,中国深圳市,518055
- 安徽农业大学动物科技学院,中国安徽省合肥市,230046
联系方式
- a. wangxu2020@mails.jlu.edu.cn
- b. ethan@stu.xju.edu.cn
- c. dongyh2021@mails.jlu.edu.cn
- d. Jin_Chen_31@stu.ahau.edu.cn
数据来源
| 材料类型 | 来源 | URLs |
|---|---|---|
| 蛋白质FASTA序列 | NCBI数据库 | https://www.ncbi.nlm.nih.gov/ |
| UniProt数据库 | https://www.uniprot.org/ | |
| Kcat和km | SABIO-RK数据库 | http://sabio.h-its.org/ |
| EBI数据库 | https://www.ebi.ac.uk/ |
数据集功能
-
ftow.py
- 功能:将氨基酸FASTA序列转换为WAV音频文件和PNG频谱图。
-
proteinml.py
- 功能:用于预测蛋白质功能的机器学习,并绘制学习曲线。
-
proteinml_matrix.py
- 功能:用于预测蛋白质功能的机器学习,并绘制混淆矩阵。
-
Tonnetz.py
- 功能:计算Tonnetz特征和Pearson相关系数。
简介
本研究提出了一种创新的多学科方法,将蛋白质序列和结构信息转换为音乐编码,通过频谱分析深入探索多维功能关系。实验中,我们使用多层感知器和XGBoost等机器学习模型分析了从2000多种蛋白质映射的音乐频谱,实现了91.04%的分类准确率和高达99.68%的交叉验证分数。此外,音乐编码中的和谐指数与蛋白质功能(如酶活性)显示出显著的相关性。
图表
- 图1. 映射规则示意图
- 图2. 频谱分析示意图
- 图3. 蛋白质功能预测流程图
- 图5. 9种蛋白质分类的混淆矩阵
- 图6. 分类预测模型学习曲线
搜集汇总
数据集介绍

构建方式
在构建Symphony of Fate数据集的过程中,研究团队从NCBI和UniProt数据库中提取了蛋白质的FASTA序列,并从SABIO-RK和EBI数据库中获取了Kcat和km值。通过ftow.py脚本,这些氨基酸序列被转换为WAV音频文件和PNG频谱图,从而将蛋白质的序列和结构信息转化为音乐编码。这一创新方法不仅丰富了蛋白质研究的多维度信息,还为后续的机器学习分析提供了丰富的数据基础。
特点
Symphony of Fate数据集的显著特点在于其跨学科的创新性。通过将蛋白质序列映射为音乐编码,该数据集不仅保留了蛋白质的原始信息,还引入了音乐的动态特性,使得蛋白质的功能和结构关系得以通过频谱分析进行深入探索。此外,数据集中的音乐和谐指数与蛋白质功能(如酶活性)之间显示出显著的相关性,为蛋白质设计和定向进化提供了新的理论视角。
使用方法
使用Symphony of Fate数据集时,研究者可以通过proteinml.py和proteinml_matrix.py脚本进行蛋白质功能的预测和学习曲线的绘制。Tonnetz.py脚本则用于计算Tonnetz特征和Pearson相关系数,进一步分析蛋白质功能与结构之间的关系。通过这些工具,研究者可以利用机器学习模型如多层感知器和XGBoost,对数据集中的音乐频谱进行分类和预测,从而揭示蛋白质功能的深层模式。
背景与挑战
背景概述
在古希腊神话中,命运三女神掌管着生命的丝线,编织、测量并最终决定每个人的命运。与此类似,蛋白质作为生命过程的核心执行者,其功能通过一个复杂的‘命运之网’实现,其中序列、结构和功能相互交织。传统研究方法往往侧重于一维信息,如序列或三维结构,限制了对这些多维关系的理解。为克服这一局限,我们提出了一种创新的多学科方法,将蛋白质序列和结构信息转化为音乐编码,通过频谱分析深入探索多维功能关系。这种方法提供了一个新的视角,揭示了传统方法难以捕捉的动态信息,揭示了蛋白质功能与结构之间的深刻模式。
当前挑战
该数据集面临的挑战包括:1) 将蛋白质序列和结构信息转化为音乐编码的过程复杂,需要精确的映射规则和算法支持;2) 频谱分析的准确性和可靠性依赖于高质量的数据集,数据来源的多样性和数据质量的保证是一个重要问题;3) 机器学习模型在处理音乐编码数据时的性能和泛化能力需要进一步验证,特别是在处理复杂蛋白质功能预测时;4) 该方法的跨学科性质要求研究人员具备生物学、音乐学和计算机科学等多领域的知识,跨学科合作的有效性和效率是一个持续的挑战。
常用场景
经典使用场景
在生物信息学领域,Symphony of Fate Dataset 以其独特的音乐编码方式,将蛋白质序列转化为音频文件和频谱图,为研究蛋白质功能与结构之间的关系提供了新颖的视角。通过分析这些音频文件的频谱特征,研究人员能够更深入地理解蛋白质的多维功能关系,从而在蛋白质分类和功能预测方面取得显著成果。
实际应用
在实际应用中,Symphony of Fate Dataset 可用于开发高效的蛋白质功能预测工具,帮助生物学家和药物研发人员快速识别和设计具有特定功能的蛋白质。此外,该数据集还可应用于生物信息学教育,通过可视化和听觉化的方式增强学生对蛋白质结构与功能的理解。
衍生相关工作
基于 Symphony of Fate Dataset,许多后续研究工作得以展开,包括改进蛋白质功能预测模型的算法、探索不同音乐编码方式对预测结果的影响,以及将该方法应用于其他生物大分子的研究。这些衍生工作进一步推动了生物信息学和计算生物学领域的发展,展示了数据集在跨学科研究中的巨大潜力。
以上内容由遇见数据集搜集并总结生成



