damlab/HIV_V3_coreceptor
收藏Hugging Face2022-02-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/damlab/HIV_V3_coreceptor
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来源于Los Alamos国家实验室的HIV序列数据库,包含2935个HIV V3环蛋白序列,这些序列可以与T细胞上的CCR5受体或巨噬细胞上的CXCR4受体相互作用。数据集的结构包括每个实例的ID、序列、折叠信息以及受体类型。数据集的创建目的是为了训练一个模型(HIV-BERT-V3)来预测HIV V3环是CCR5还是CXCR4趋向的。使用该数据集时需要注意其样本主要来自北美和欧洲的B亚型,其他亚型的样本较少,可能需要额外的序列来平衡性能。
提供机构:
damlab
原始信息汇总
数据集描述
数据集概述
该数据集源自洛斯阿拉莫斯国家实验室(LANL)的HIV序列数据库。包含2,935条HIV V3环蛋白序列,这些序列可以与T细胞上的CCR5受体或巨噬细胞上的CXCR4受体相互作用。
支持的任务和排行榜:无
语言:英语
数据集结构
数据实例
每个数据实例的列代表HIV V3环的蛋白质氨基酸序列。ID字段表示未来交叉引用的Genbank参考ID。共有2,935条V3序列,其中91%为CCR5趋向性,23%为CXCR4趋向性。
数据字段:ID, sequence, fold, CCR5, CXCR4
数据分割:无
数据集创建
数据集创建理由
该数据集是为了训练一个名为HIV-BERT-V3的模型,该模型旨在预测HIV V3环是CCR5趋向性还是CXCR4趋向性。
初始数据收集和规范化
数据集于2021年12月20日下载并整理。
使用数据时的考虑
数据集的社会影响
该数据集可用于研究HIV V3环允许进入T细胞和巨噬细胞的机制。
偏见讨论
由于该数据库的采样性质,它主要由北美和欧洲的B亚型序列组成,只有少量的C、A和D亚型序列。目前没有努力平衡这些类别的表现。因此,应考虑通过添加更多序列来改进对非B序列的表现。
附加信息
- 数据集策展人:Will Dampier
- 引用信息:待定



