five

multimolecule/rnacentral

收藏
Hugging Face2024-08-18 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/multimolecule/rnacentral
下载链接
链接失效反馈
官方服务:
资源简介:
RNAcentral是一个免费、公开的资源,提供了对非编码RNA序列的全面和最新访问,这些序列由代表广泛生物体和RNA类型的专家数据库合作提供。数据集由欧洲生物信息学研究所协调开发,并得到了Wellcome和BBSRC的支持。数据集的大小在10M到100M之间,主要用于文本生成和填充掩码任务。

RNAcentral是一个免费、公开的资源,提供了对非编码RNA序列的全面和最新访问,这些序列由代表广泛生物体和RNA类型的专家数据库合作提供。数据集由欧洲生物信息学研究所协调开发,并得到了Wellcome和BBSRC的支持。数据集的大小在10M到100M之间,主要用于文本生成和填充掩码任务。
提供机构:
multimolecule
原始信息汇总

RNAcentral 数据集概述

基本信息

  • 语言: RNA
  • 标签: Biology, RNA
  • 许可证: AGPL-3.0
  • 数据集大小: 10M < n < 100M

数据来源

  • multimolecule/5srrnadb
  • multimolecule/crw
  • multimolecule/dictybase
  • multimolecule/ena
  • multimolecule/ensembl
  • multimolecule/ensembl_fungi
  • multimolecule/ensembl_gencode
  • multimolecule/ensembl_metazoa
  • multimolecule/ensembl_plants
  • multimolecule/ensembl_protists
  • multimolecule/evlncrnas
  • multimolecule/expression_atlas
  • multimolecule/flybase
  • multimolecule/genecards
  • multimolecule/greengenes
  • multimolecule/gtrnadb
  • multimolecule/hgnc
  • multimolecule/intact
  • multimolecule/lncbase
  • multimolecule/lncbook
  • multimolecule/lncipedia
  • multimolecule/lncrnadb
  • multimolecule/malacards
  • multimolecule/mgi
  • multimolecule/mgnify
  • multimolecule/mirbase
  • multimolecule/mirgenedb
  • multimolecule/modomics
  • multimolecule/noncode
  • multimolecule/pdbe
  • multimolecule/pirbase
  • multimolecule/plncdb
  • multimolecule/pombase
  • multimolecule/psicquic
  • multimolecule/rdp
  • multimolecule/refseq
  • multimolecule/rfam
  • multimolecule/rgd
  • multimolecule/ribocentre
  • multimolecule/ribovision
  • multimolecule/sgd
  • multimolecule/silva
  • multimolecule/snodb
  • multimolecule/snopy
  • multimolecule/snorna_database
  • multimolecule/srpdb
  • multimolecule/tair
  • multimolecule/tarbase
  • multimolecule/tmrna_website
  • multimolecule/wormbase
  • multimolecule/zfin
  • multimolecule/zwd

任务类别

  • text-generation
  • fill-mask

任务ID

  • language-modeling
  • masked-language-modeling

数据集名称

  • RNAcentral

库名称

  • multimolecule

数据集描述

  • 主页: https://rnacentral.org
  • 文档: https://multimolecule.danling.org/datasets/rnacentral
  • 数据集链接: https://huggingface.co/datasets/multimolecule/rnacentral
  • 联系人: Blake Sweeney

许可证

  • 数据集许可证: AGPL-3.0
  • 原始数据集许可证: CC0

引用

bibtex @article{rnacentral2021, author = {{RNAcentral Consortium}}, doi = {https://doi.org/10.1093/nar/gkaa921}, journal = {Nucleic Acids Research}, month = jan, number = {D1}, pages = {D212--D220}, publisher = {Oxford University Press (OUP)}, title = {{RNAcentral} 2021: secondary structure integration, improved sequence search and new member databases}, url = {https://academic.oup.com/nar/article/49/D1/D212/5940500}, volume = 49, year = 2021 }

@article{sweeney2020exploring, author = {Sweeney, Blake A. and Tagmazian, Arina A. and Ribas, Carlos E. and Finn, Robert D. and Bateman, Alex and Petrov, Anton I.}, doi = {https://doi.org/10.1002/cpbi.104}, eprint = {https://currentprotocols.onlinelibrary.wiley.com/doi/pdf/10.1002/cpbi.104}, journal = {Current Protocols in Bioinformatics}, keywords = {Galaxy, ncRNA, non-coding RNA, RNAcentral, RNA-seq}, number = {1}, pages = {e104}, title = {Exploring Non-Coding RNAs in RNAcentral}, url = {https://currentprotocols.onlinelibrary.wiley.com/doi/abs/10.1002/cpbi.104}, volume = 71, year = 2020 }

@article{rnacentral2019, author = {{The RNAcentral Consortium}}, doi = {https://doi.org/10.1093/nar/gky1034}, journal = {Nucleic Acids Research}, month = jan, number = {D1}, pages = {D221--D229}, publisher = {Oxford University Press (OUP)}, title = {{RNAcentral}: a hub of information for non-coding {RNA} sequences}, url = {https://academic.oup.com/nar/article/47/D1/D221/5160993}, volume = 47, year = 2019 }

@article{rnacentral2017, author = {{The RNAcentral Consortium} and Petrov, Anton I and Kay, Simon J E and Kalvari, Ioanna and Howe, Kevin L and Gray, Kristian A and Bruford, Elspeth A and Kersey, Paul J and Cochrane, Guy and Finn, Robert D and Bateman, Alex and Kozomara, Ana and Griffiths-Jones, Sam and Frankish, Adam and Zwieb, Christian W and Lau, Britney Y and Williams, Kelly P and Chan, Patricia Pand Lowe, Todd M and Cannone, Jamie J and Gutell, Robin and Machnicka, Magdalena A and Bujnicki, Janusz M and Yoshihama, Maki and Kenmochi, Naoya and Chai, Benli and Cole, James R and Szymanski, Maciej and Karlowski, Wojciech M and Wood, Valerie and Huala, Eva and Berardini, Tanya Z and Zhao, Yi and Chen, Runsheng and Zhu, Weimin and Paraskevopoulou, Maria D and Vlachos, Ioannis S and Hatzigeorgiou, Artemis G and Ma, Lina and Zhang, Zhang and Puetz, Joern and Stadler, Peter F and McDonald, Daniel and Basu, Siddhartha and Fey, Petra and Engel, Stacia R and Cherry, J Michael and Volders, Pieter-Jan and Mestdagh, Pieter and Wower, Jacek and Clark, Michael B and Quek, Xiu Cheng and Dinger, Marcel E}, doi = {https://doi.org/10.1093/nar/gkw1008}, journal = {Nucleic Acids Research}, month = jan, number = {D1}, pages = {D128--D134}, publisher = {Oxford University Press (OUP)}, title = {{RNAcentral}: a comprehensive database of non-coding {RNA} sequences}, url = {https://academic.oup.com/nar/article/45/D1/D128/2333921}, volume = 45, year = 2017 }

@article{rnacentral2015, author = {{RNAcentral Consortium} and Petrov, Anton I and Kay, Simon J E and Gibson, Richard and Kulesha, Eugene and Staines, Dan and Bruford, Elspeth A and Wright, Mathew W and Burge, Sarah and Finn, Robert D and Kersey, Paul J and Cochrane, Guy and Bateman, Alex and Griffiths-Jones, Sam and Harrow, Jennifer and Chan, Patricia P and Lowe, Todd M and Zwieb, Christian W and Wower, Jacek and Williams, Kelly P and Hudson, Corey M and Gutell, Robin and Clark, Michael B and Dinger, Marcel and Quek, Xiu Cheng and Bujnicki, Janusz M and Chua, Nam-Hai and Liu, Jun and Wang, Huan and Skogerb{o}, Geir and Zhao, Yi and Chen, Runsheng and Zhu, Weimin and Cole, James R and Chai, Benli and Huang, Hsien-Da and Huang, His-Yuan and Cherry, J Michael and Hatzigeorgiou, Artemis and Pruitt, Kim D}, doi = {https://doi.org/10.1093/nar/gku991}, journal = {Nucleic Acids Research}, month = jan, number = {Database issue}, pages = {D123--D129}, title = {{RNAcentral}: an international database of {ncRNA} sequences}, url = {https://academic.oup.com/nar/article/43/D1/D123/2439941}, volume = 43, year = 2015 }

@article{bateman2011rnacentral, author = {Bateman, Alex and Agrawal, Shipra and Birney, Ewan and Bruford, Elspeth A and Bujnicki, Janusz M and Cochrane, Guy and Cole, James R and Dinger, Marcel E and Enright, Anton J and Gardner, Paul P and Gautheret, Daniel and Griffiths-Jones, Sam and Harrow, Jen and Herrero, Javier and Holmes, Ian H and Huang, Hsien-Da and Kelly, Krystyna A and Kersey, Paul and Kozomara, Ana and Lowe, Todd M and Marz, Manja and Moxon, Simon andPruitt, Kim D and Samuelsson, Tore and Stadler, Peter F and Vilella, Albert J and Vogel, Jan-Hinnerk and Williams, Kelly P and Wright, Mathew W and Zwieb, Christian}, doi = {https://doi.org/10.1261/rna.2750811}, journal = {RNA}, month = nov, number = 11, pages = {1941--1946}, publisher = {Cold Spring Harbor Laboratory}, title = {{RNAcentral}: A vision for an international database of {RNA} sequences}, url = {https://rnajournal.cshlp.org/content/17/11/1941.long}, volume = 17, year = 2011 }

搜集汇总
数据集介绍
main_image_url
构建方式
在非编码RNA研究领域,数据整合的复杂性要求构建一个统一且权威的资源库。RNAcentral数据集通过汇聚来自超过50个专家数据库的序列信息,构建了一个综合性的非编码RNA序列集合。其构建过程依赖于欧洲生物信息学研究所的协调,采用分布式数据采集策略,从诸如miRBase、Rfam、Ensembl等专业来源系统性地提取、标准化并整合数据,确保了序列的全面性与时效性。
使用方法
在生物信息学应用中,该数据集主要支持文本生成与掩码语言建模等任务,适用于训练面向RNA序列的专业语言模型。研究人员可通过Hugging Face平台直接加载数据集,利用其标准化格式进行下游分析,例如序列比对、功能预测或作为大规模预训练的数据源。其详尽的引用链也为学术研究提供了可靠的溯源依据。
背景与挑战
背景概述
在非编码RNA研究领域,数据资源的整合与标准化是推动科学发现的关键。RNAcentral数据集由欧洲生物信息学研究所协调开发,并得到威康信托基金会等机构的支持,自2011年构想提出以来,逐步演进为一个国际性的非编码RNA序列综合数据库。该数据集汇聚了来自超过50个专家数据库的序列信息,涵盖广泛的生物体和RNA类型,旨在为科研社区提供一个统一、权威的非编码RNA序列查询平台。其核心研究问题聚焦于解决非编码RNA数据分散、注释不一致的困境,通过集成多源数据,显著提升了序列检索的效率和可靠性,对基因组学、转录组学及RNA生物学研究产生了深远影响。
当前挑战
RNAcentral数据集致力于解决非编码RNA序列鉴定、分类与功能注释中的复杂性挑战,其核心在于整合高度异质的数据源以支持精准的序列分析。在构建过程中,面临多重技术难题:一是数据标准化与去重,需协调不同专家数据库在命名规则、序列格式和注释标准上的差异,确保数据的一致性与完整性;二是大规模序列数据的实时更新与质量控制,要求建立高效的管道处理不断增长的序列信息,同时维持数据的准确性与时效性;三是二级结构与修饰注释的集成,这些高阶信息的纳入增加了数据处理的复杂度,需开发专门算法以有效解析和存储。这些挑战共同塑造了数据集的技术架构,推动着非编码RNA资源向更全面、可访问的方向发展。
常用场景
经典使用场景
在非编码RNA研究领域,RNAcentral数据集作为核心资源,其经典使用场景体现在为生物信息学分析提供统一的序列查询与注释平台。研究人员通过整合来自多个专家数据库的RNA序列,能够系统性地探索各类非编码RNA的结构与功能,例如在基因组比对、序列相似性搜索以及进化分析中,该数据集为大规模RNA序列的标准化处理与交叉验证奠定了坚实基础。
解决学术问题
RNAcentral数据集有效解决了非编码RNA研究中数据分散与注释不一致的学术难题。通过汇聚并标准化来自数十个专业数据库的RNA序列,该资源消除了跨平台数据整合的障碍,使得研究人员能够更便捷地探究RNA的多样性、进化关系及其在基因调控中的作用。这一集成化平台显著提升了非编码RNA发现的效率,并为理解RNA在细胞过程中的分子机制提供了可靠的数据支撑。
实际应用
在实际应用中,RNAcentral数据集广泛应用于临床诊断与药物研发的前沿探索。例如,在疾病相关的非编码RNA标志物筛选中,研究人员利用该数据集的高质量序列信息,识别与癌症、神经退行性疾病等相关的miRNA或lncRNA。同时,在合成生物学领域,该资源为设计基于RNA的调控元件或治疗性RNA分子提供了关键的序列参考,助力精准医疗与新型疗法的开发。
数据集最近研究
最新研究方向
在非编码RNA研究领域,RNAcentral数据集作为整合多源专家数据库的枢纽,正推动着前沿探索的深化。当前研究聚焦于利用其海量序列与二级结构注释,结合深度学习模型预测RNA功能与相互作用机制,尤其在长非编码RNA调控网络与疾病关联分析中展现关键价值。伴随单细胞测序技术的普及,该数据集助力解析细胞类型特异性表达模式,成为探索RNA修饰动态与进化保守性的重要基石,为精准医学与合成生物学提供数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作