five

afg1/rnacentral_subset

收藏
Hugging Face2024-04-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/afg1/rnacentral_subset
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc0-1.0 size_categories: - 1M<n<10M --- This is a parquet-ified subset of the RNAcentral active fasta file available here: https://ftp.ebi.ac.uk/pub/databases/RNAcentral/releases/24.0/sequences/rnacentral_active.fasta.gz I have preprocessed it a bit, requiring only sequences less than 8192 nt long, and having no ambiguous nucleotides (i.e. no Ns or other non standard things) This dataset is about 10% of the overall, and comprises 3,252,483 (3.2 million) sequences, or 2,642,703,990 (2.6 billion) bases. The train/val/test split is 60/20/20
提供机构:
afg1
原始信息汇总

数据集概述

数据集基本信息

  • 许可证: CC0-1.0
  • 数据集大小: 1M<n<10M

数据来源与处理

数据集规模

  • 序列数量: 3,252,483 (3.2 million)
  • 总碱基数: 2,642,703,990 (2.6 billion)

数据集分割

  • 训练/验证/测试比例: 60/20/20
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作