five

damlab/HIV_V3_coreceptor

收藏
Hugging Face2022-02-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/damlab/HIV_V3_coreceptor
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来源于Los Alamos国家实验室的HIV序列数据库,包含2935个HIV V3环蛋白序列,这些序列可以与T细胞上的CCR5受体或巨噬细胞上的CXCR4受体相互作用。数据集的结构包括每个实例的ID、序列、折叠信息以及受体类型。数据集的创建目的是为了训练一个模型(HIV-BERT-V3)来预测HIV V3环是CCR5还是CXCR4趋向的。使用该数据集时需要注意其样本主要来自北美和欧洲的B亚型,其他亚型的样本较少,可能需要额外的序列来平衡性能。
提供机构:
damlab
原始信息汇总

数据集描述

数据集概述

该数据集源自洛斯阿拉莫斯国家实验室(LANL)的HIV序列数据库。包含2,935条HIV V3环蛋白序列,这些序列可以与T细胞上的CCR5受体或巨噬细胞上的CXCR4受体相互作用。

支持的任务和排行榜:无

语言:英语

数据集结构

数据实例

每个数据实例的列代表HIV V3环的蛋白质氨基酸序列。ID字段表示未来交叉引用的Genbank参考ID。共有2,935条V3序列,其中91%为CCR5趋向性,23%为CXCR4趋向性。

数据字段:ID, sequence, fold, CCR5, CXCR4

数据分割:无

数据集创建

数据集创建理由

该数据集是为了训练一个名为HIV-BERT-V3的模型,该模型旨在预测HIV V3环是CCR5趋向性还是CXCR4趋向性。

初始数据收集和规范化

数据集于2021年12月20日下载并整理。

使用数据时的考虑

数据集的社会影响

该数据集可用于研究HIV V3环允许进入T细胞和巨噬细胞的机制。

偏见讨论

由于该数据库的采样性质,它主要由北美和欧洲的B亚型序列组成,只有少量的C、A和D亚型序列。目前没有努力平衡这些类别的表现。因此,应考虑通过添加更多序列来改进对非B序列的表现。

附加信息

  • 数据集策展人:Will Dampier
  • 引用信息:待定
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作