five

damlab/HIV_V3_bodysite

收藏
Hugging Face2022-02-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/damlab/HIV_V3_bodysite
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集源自Los Alamos国家实验室的HIV序列数据库,包含5,510个独特的V3序列,每个序列都标注了其相关的身体部位。数据集结构部分详细说明了数据实例的组成,包括每个V3环的蛋白质氨基酸序列,以及用于未来交叉参考的Genbank参考ID。数据集创建部分提到了数据集的下载和整理日期。使用数据的考虑部分讨论了数据集的社会影响和存在的偏见,如数据集主要包含来自北美和欧洲的B亚型序列,且对非B亚型序列的表现未进行平衡处理。
提供机构:
damlab
原始信息汇总

数据集概述

数据集总结

本数据集源自Los Alamos National Laboratory HIV序列(LANL)数据库,包含5,510个独特的V3序列,每个序列均标注了与之相关的身体部位。该数据集不支持特定任务或排行榜。

数据集结构

数据实例

  • 列描述:每列代表HIV V3环的蛋白质氨基酸序列。
  • ID字段:表示Genbank参考ID,用于未来交叉引用。
  • 序列总数:共2,935个V3序列,其中91%为CCR5趋向性,23%为CXCR4趋向性。
  • 数据字段:ID, 序列, 折叠, 外周T细胞, 外周单核细胞, 中枢神经系统, 肺, 母乳, 胃, 男性生殖器, 女性生殖器, 脐带, 器官。

数据创建

  • 数据收集与规范化:数据集于2021年12月20日下载并整理。

使用数据集的考虑

  • 社会影响:可用于研究HIV V3环如何允许研究HIV的隔室化机制。
  • 偏见讨论:由于数据库的采样性质,主要由北美和欧洲的B亚型序列组成,C、A和D亚型的贡献较小。目前未采取措施平衡这些类别的性能,建议使用额外序列进行改进,以提高非B序列的表现。此外,该数据集高度偏向于外周T细胞。

附加信息

  • 数据集整理者:Will Dampier
  • 引用信息:待定
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作