five

rouskinlab/PDB|蛋白质结构数据集|生物化学数据集

收藏
hugging_face2024-06-26 更新2024-05-25 收录
蛋白质结构
生物化学
下载链接:
https://hf-mirror.com/datasets/rouskinlab/PDB
下载链接
链接失效反馈
资源简介:
该数据集包含355个序列数据点和355个结构数据点,涉及化学和生物学领域。数据来源于PDB.json,由Silvi Rouskin于2024年6月26日发布。

This dataset contains 355 sequence datapoints and 355 structure datapoints, related to the fields of chemistry and biology. The data is sourced from PDB.json and was published by Silvi Rouskin on June 26, 2024.
提供机构:
rouskinlab
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 语言: 英语
  • 标签: 化学, 生物学
  • 作者: Silvi Rouskin
  • 来源: data.json
  • 日期: 2023-12-11-12-36-40

数据类型

  • 序列: 356个数据点
  • 结构: 356个数据点

转换报告

  • 有效数据点: 356个
  • 修改:
    • 0个多序列同参考(重命名参考)
    • 0个序列重复但结构/dms/形状不同
  • 过滤:
    • 0个无效数据点(如:含有非正规字符的序列)
    • 0个结构不良的数据点
    • 0个序列重复且结构/dms/形状相同
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由Silvi Rouskin构建,基于PDB.json文件,涵盖了355个数据点。其构建过程严谨,确保了数据的高质量和一致性。通过精心筛选和处理,数据集包含了蛋白质的序列和结构信息,为生物化学领域的研究提供了坚实的基础。
使用方法
该数据集适用于多种生物化学和分子生物学研究场景,如蛋白质结构预测、功能分析和进化研究。用户可以通过加载PDB.json文件,提取所需的序列和结构数据,进行进一步的分析和建模。数据集的灵活性和高质量数据使其成为相关领域研究的重要工具。
背景与挑战
背景概述
在化学与生物学交叉领域,蛋白质结构数据库(PDB)数据集的创建标志着对蛋白质结构与功能关系深入研究的重要里程碑。该数据集由Silvi Rouskin于2024年6月26日发布,主要研究人员通过整合355个蛋白质序列和结构数据点,旨在为研究者提供一个全面的蛋白质结构信息平台。这一数据集不仅丰富了蛋白质结构数据库的内容,还为后续的蛋白质功能预测、药物设计等研究提供了坚实的基础。
当前挑战
尽管PDB数据集在蛋白质研究领域具有重要价值,但其构建过程中仍面临诸多挑战。首先,数据集的规模和多样性要求高精度的数据采集和处理技术,以确保数据的准确性和完整性。其次,蛋白质结构的复杂性和多样性使得数据的标准化和统一描述成为一个难题。此外,随着新蛋白质的不断发现,数据集的更新和维护也需要持续的技术支持和资源投入。
常用场景
经典使用场景
在生物化学领域,rouskinlab/PDB数据集的经典使用场景主要集中在蛋白质结构与功能的研究中。该数据集提供了355个蛋白质的序列和结构数据,为研究人员提供了丰富的资源,以探索蛋白质的折叠机制、功能域的识别以及蛋白质间的相互作用。通过分析这些数据,科学家们能够更深入地理解蛋白质在生物体内的作用机制,从而推动相关领域的研究进展。
解决学术问题
rouskinlab/PDB数据集在解决生物化学领域的学术研究问题中发挥了重要作用。它为研究人员提供了大量的蛋白质序列和结构数据,有助于解决蛋白质折叠、功能预测和药物设计等关键问题。通过这些数据,科学家们能够验证和改进现有的蛋白质结构预测模型,提高预测的准确性,从而为生物医学研究提供更可靠的理论基础。
实际应用
在实际应用中,rouskinlab/PDB数据集被广泛用于药物研发和生物工程领域。研究人员利用该数据集中的蛋白质结构信息,进行药物靶点的识别和优化,以开发新型药物。此外,该数据集还支持蛋白质工程的研究,帮助设计具有特定功能的蛋白质,应用于生物传感器、酶工程和生物材料等领域,推动了生物技术的实际应用。
数据集最近研究
最新研究方向
在化学与生物学交叉领域,rouskinlab/PDB数据集的最新研究方向聚焦于蛋白质结构与功能的深入解析。通过整合355个蛋白质序列和结构数据点,研究者们致力于揭示蛋白质在生物体内的动态行为及其与疾病发生机制的关联。这一研究不仅推动了蛋白质工程和药物设计的前沿进展,还为精准医疗提供了新的数据支持。随着计算生物学和人工智能技术的融合,该数据集的应用前景愈发广阔,有望在未来的生物医学研究中发挥关键作用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

WLASL, MSASL, NMFs-CSL, SLR500, Slovo, BOBSL, 27 Class Sign Language Dataset, AUTSL, BosphorusSign22k, GSL, LSA16, LSA64, Rendered Handpose Dataset, YouTube-ASL, LSFB-ISOL, ASLLVD, AASL, KArSL, BdSLImset, HaGRID, Phoenix-2014, Phoenix-2014T

该仓库收集了多种与手语识别和翻译相关的数据集,旨在为研究者、开发者和爱好者提供一个集中的资源。数据集包括不同类型(如RGB、深度、骨骼)和来自不同国家的数据,用于支持手语识别和翻译技术的研究。

github 收录

Natural Scene Braille Character Recognition Dataset

There are a total of 1157 Braille segment images in this dataset, including 925 in the training set and 232 in the testing set. There are two folders in the directory of this dataset: character_label and segment_label. The character_rabel file contains three formats of Braille segment images: (1) Braille segment images and label files stored in ICDAR-2015 format, each. jpg file corresponds to a. txt file, where each line stores the position and recognition label of a braille character rectangle box. The data corresponds to the coordinates of the four points in the rectangle box and the recognized numerical label; (2) The original format of the data is stored in the folder org. Each .jpg file in this folder corresponds to a .json file which marked by labelme software; (3) VOC format, stored in voc-data folder. This folder stores images and corresponding .xml files in VOC format, and marks the position of each braille character rectangle box and its corresponding numerical label information in the .xml file. In addition, the original Braille images of natural scenes and the corresponding Braille segment markings .json files are stored in the folder segment_label.

DataCite Commons 收录

SuMeyYao/ysmpubmedclt

该数据集的许可证为apache-2.0,主要用于表格问答任务,数据集语言为英语,大小介于1亿到10亿之间。

hugging_face 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录