five

learn2therm relational database

收藏
Figshare2023-08-24 更新2026-04-08 收录
下载链接:
https://figshare.com/articles/dataset/learn2therm_relational_database/23581932/1
下载链接
链接失效反馈
官方服务:
资源简介:
DescriptionA dataset of prokaryotes, proteins, organism pairs, and protein homologous pairs across temperature, up to 102 celsius. The data is presented in the form of a duckdb relational database, and contains 24 million proteins belonging to 9.5k prokaryotes. The proteins have been pairs by homology, producing 70 millions pairs of mesophilic-thermophilic proteins. Please see the README contained within the zipped file for instructions on usage and access of the relational data file. See the code repository, in this Figshare project and the main paper (TODO) for details on how this data was created<br>Contents`learn2therm.ddb` - duckdb file containing the data`environment.yaml` - minimal conda environment necessary to access the data`README.md` - instructions on accessing the data, including some example queries. Also contains the schema of the tables in the relational database.- `csvs/` , Colon-seperated dump files from the data tablesAll material in this project:- Database pipeline source code: 10.6084/m9.figshare.23589390- (here) Database: 10.6084/m9.figshare.23581932- Classifier source code: 10.6084/m9.figshare.23589210- Trained classifier: 10.6084/m9.figshare.23582325<br>ManuscriptTODO

本数据集涵盖原核生物、蛋白质、生物配对对以及跨温度梯度(最高可达102摄氏度)的蛋白质同源配对对。数据以DuckDB关系数据库形式存储,包含隶属于9500种原核生物的2400万条蛋白质序列。上述蛋白质已完成同源配对,共生成7000万条嗜温-嗜热蛋白质配对对。如需获取关系型数据文件的使用与访问说明,请查阅压缩包内的README文件。有关本数据集的构建细节,请参阅本Figshare项目中的代码仓库以及待完成的主研究论文(TODO)。 Contents `learn2therm.ddb` —— 存储本数据集的DuckDB数据库文件 `environment.yaml` —— 用于访问该数据集的极简Conda环境配置文件 `README.md` —— 数据集访问指南,包含若干示例查询语句,同时附带关系数据库中各数据表的数据库模式信息 - `csvs/` —— 源自各数据表的冒号分隔转储文件 All material in this project: - 数据库流水线源代码:10.6084/m9.figshare.23589390 - (本项目)数据库文件:10.6084/m9.figshare.23581932 - 分类器源代码:10.6084/m9.figshare.23589210 - 已训练分类器:10.6084/m9.figshare.23582325 Manuscript(待完成)
提供机构:
Komp, Evan; Roberts, Logan; Alanzi, Humood; Beck, Dave; Vuong, Chau; Francis, Ryan
创建时间:
2023-08-24
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作