rouskinlab/RNAstralign
收藏Hugging Face2024-12-12 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/rouskinlab/RNAstralign
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含化学和生物学领域的数据,共有27082个数据点,分为序列、结构和家族三类。数据集转换报告中提到,总共有37149个数据点,其中27125个是有效的,104个是重复序列但结构不同,1244个是多个序列具有相同参考(已重命名参考),3949个是无效数据点(如包含非正规字符的序列),9个是结构不良的数据点,6066个是重复序列且结构相同。
该数据集包含化学和生物学领域的数据,共有27082个数据点,分为序列、结构和家族三类。数据集转换报告中提到,总共有37149个数据点,其中27125个是有效的,104个是重复序列但结构不同,1244个是多个序列具有相同参考(已重命名参考),3949个是无效数据点(如包含非正规字符的序列),9个是结构不良的数据点,6066个是重复序列且结构相同。
提供机构:
rouskinlab
原始信息汇总
数据集概述
基本信息
- 许可证: MIT
- 语言:
- 英语
- 标签:
- 化学
- 生物学
- 作者: Silvi Rouskin
- 来源: data.json
- 日期: 2023-12-11 23:20:02
数据类型
- 序列: 27082个数据点
- 结构: 27082个数据点
- 家族: 27082个数据点
数据处理报告
- 总数据点: 37149个
- 输出:
- 有效数据点: 27125个
- 包含重复序列: 104个(具有不同结构/dms/形状)
- 修改:
- 重命名参考序列: 1244个(具有相同参考序列)
- 过滤:
- 无效数据点: 3949个(例如包含非标准字符的序列)
- 结构不良数据点: 9个
- 重复序列: 6066个(具有相同结构/dms/形状)



