duttaprat/HVUE

Name: duttaprat/HVUE
Creator: duttaprat
Published: 2025-11-26 19:06:15
License: 暂无描述

Hugging Face2025-11-26 更新2025-12-20 收录

下载链接：

https://hf-mirror.com/datasets/duttaprat/HVUE

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en license: cc-by-4.0 task_categories: - text-classification tags: - biology - virology - genomics - pathogenicity - benchmark - viral-genomics size_categories: - 10K<n<100K --- # HVUE: Human Virome Understanding Evaluation ## Dataset Description HVUE (Human Virome Understanding Evaluation) is a comprehensive benchmark for evaluating foundation models on viral genomics tasks. The benchmark comprises 7 curated datasets across 3 epidemiologically critical prediction tasks: - **Pathogenicity Classification** (3 datasets) - **Host Tropism Prediction** (1 dataset) - **Transmissibility Assessment** (3 datasets) **Paper**: *HViLM: A Foundation Model for Viral Genomics Enables Multi-Task Prediction of Pathogenicity, Transmissibility, and Host Tropism* **Authors**: Pratik Dutta, Jack Vaska, Pallavi Surana, Rekha Sathian, Max Chao, Zhihan Zhou, Han Liu, and Ramana V. Davuluri **GitHub**: https://github.com/duttaprat/HViLM ## Dataset Structure ### Pathogenicity Classification **CINI Dataset** - 159 sequences across 4 viral families - Manual literature-based curation - Binary classification: pathogenic vs non-pathogenic **BVBRC-CoV Dataset** - 18,066 coronavirus sequences - Distinguishes human-pathogenic (SARS-CoV-2, MERS-CoV, etc.) from animal-restricted strains **BVBRC-Calici Dataset** - 31,089 calicivirus sequences - Clinical evidence and isolation source-based labels ### Host Tropism Prediction **VHDB Dataset** - 9,428 sequences spanning 30 viral families - Binary classification: human-tropic (13.1%) vs non-human-tropic (86.9%) - Experimentally validated host range annotations ### Transmissibility Prediction **Coronaviridae Dataset** - ~3,000 coronavirus sequences - R₀-based classification: R₀<1 vs R₀≥1 **Orthomyxoviridae Dataset** - ~2,500 influenza sequences - R₀-based classification **Caliciviridae Dataset** - ~1,800 calicivirus sequences - R₀-based classification ## Data Format Each dataset contains three splits: - `train.csv` - `dev.csv` - `test.csv` CSV columns: - `sequence`: Viral genomic sequence (250-1000 bp) - `label`: Binary label (0 or 1) ## Usage ```python from datasets import load_dataset # Load entire benchmark hvue = load_dataset("duttaprat/HVUE") # Load specific task patho_cini = load_dataset("duttaprat/HVUE", data_files="pathogenicity/CINI/*.csv") # Load specific split train_data = load_dataset("duttaprat/HVUE", data_files="pathogenicity/CINI/train.csv") ``` ## Citation ```bibtex @article{dutta2025hvilm, title={HViLM: A Foundation Model for Viral Genomics Enables Multi-Task Prediction of Pathogenicity, Transmissibility, and Host Tropism}, author={Dutta, Pratik and Vaska, Jack and Surana, Pallavi and Sathian, Rekha and Chao, Max and Zhou, Zhihan and Liu, Han and Davuluri, Ramana V.}, journal={Submitted to RECOMB}, year={2025} } ``` ## License CC-BY-4.0 ## Contact - Pratik Dutta: Pratik.Dutta@stonybrook.edu - GitHub Issues: https://github.com/duttaprat/HViLM/issues

提供机构：

duttaprat

5,000+

优质数据集

54 个

任务类型

进入经典数据集