PDB (Protein Data Bank)|生物信息学数据集|结构生物学数据集
收藏
- PDB首次发表,由Walter Hamilton在Brookhaven National Laboratory创建,标志着蛋白质结构数据库的诞生。
- PDB的管理权转移至Research Collaboratory for Structural Bioinformatics (RCSB),标志着数据库管理的新阶段。
- PDB与欧洲生物信息学研究所(EBI)和日本大阪大学蛋白质研究所(PDBj)合作,形成全球PDB联盟,实现数据共享和统一管理。
- PDB发布PDB101教育资源,旨在提高公众对蛋白质结构和功能的理解,标志着其在教育领域的扩展。
- PDB庆祝成立50周年,展示其在生物信息学和结构生物学领域的持续影响力和重要性。
- 1The Protein Data Bank: a historical perspectiveNational Institutes of Health · 2008年
- 2The Protein Data Bank: new resources for research and education in structural biologyNational Institutes of Health · 2019年
- 3The Protein Data Bank: a key resource for structural biologyNational Institutes of Health · 2018年
- 4The Protein Data Bank: a key resource for structural biologyNational Institutes of Health · 2018年
- 5The Protein Data Bank: a key resource for structural biologyNational Institutes of Health · 2018年
rag-datasets/rag-mini-bioasq
该数据集主要用于问答和句子相似性任务,涉及生物医学领域。数据集包含两个配置:text-corpus和question-answer-passages,分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集,并通过`generate.py`脚本生成了子集。
hugging_face 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
PQAref
PQAref数据集是一个用于生物医学领域参考问答任务的数据集,旨在微调大型语言模型。该数据集包含三个部分:指令(问题)、摘要(从PubMed检索的相关摘要,包含PubMed ID、摘要标题和内容)和答案(预期答案,包含PubMed ID形式的参考)。数据集通过半自动方式创建,利用了PubMedQA数据集中的问题。
huggingface 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录