aguennoune17/atlas-crispr-10k-benchmark

Name: aguennoune17/atlas-crispr-10k-benchmark
Creator: aguennoune17
Published: 2026-04-18 22:57:51
License: 暂无描述

Hugging Face2026-04-18 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/aguennoune17/atlas-crispr-10k-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit language: - dna task_categories: - feature-extraction - other tags: - crispr - genome-editing - cas9 - guide-rna - atlas-nwm - i-jepa - leworldmodel - bioinformatics - benchmark pretty_name: ATLAS CRISPR 10k Benchmark size_categories: - 1K<n<10K dataset_info: features: - name: guide_id dtype: string - name: sequence dtype: string - name: cleavageFrequency dtype: float64 - name: cleavageFrequency_norm dtype: float64 - name: specificity_score dtype: float64 - name: lambda_cost dtype: float64 - name: gc_content dtype: float64 - name: dataset_source dtype: string splits: - name: train num_examples: 9000 - name: validation num_examples: 1000 num_rows: 10000 configs: - config_name: default data_files: - split: train path: data/atlas_crispr_10k_benchmark.csv --- # 🧬 ATLAS CRISPR 10k Benchmark [![Model](https://img.shields.io/badge/Fine--tuned%20Model-aguennoune17%2FnegenWM-jepa-v2-blue)](https://huggingface.co/aguennoune17/negenWM-jepa-v2) [![Sprint 3](https://img.shields.io/badge/Sprint%203-I--JEPA%20Training-green)]() [![LeWorldModel](https://img.shields.io/badge/Community-LeWorldModel-red)]() [![DNA Lot](https://img.shields.io/badge/DNA%20Lot-dna--lot--v3.0.0--crispr-purple)]() > **Contribution communauté LeWorldModel** — Benchmark CRISPR 10k guides ARN > Utilisé pour fine-tuner [`aguennoune17/negenWM-jepa-v2`](https://huggingface.co/aguennoune17/negenWM-jepa-v2) — ATLAS NWM Sprint 3 > Self-supervised I-JEPA · Encodage téléologique (κ, τ, λ) ## Description **10 000 guides ARN Cas9 de 20 nucléotides** consolidés depuis 12 études expérimentales de criblage CRISPR génomique à grande échelle. Ce dataset est le benchmark officiel du **Sprint 3 ATLAS NWM v2** — entraînement I-JEPA auto-supervisé. Chaque guide est enrichi avec des métriques biologiques mappées aux dimensions téléologiques ATLAS : | Colonne | Type | Rôle ATLAS | Description | |---------|------|-----------|-------------| | `guide_id` | string | — | Identifiant unique | | `sequence` | string (20-nt) | x(t) input | Séquence ADN guide Cas9 | | `cleavageFrequency` | float [0, 1] | — | Fréquence de coupure brute | | `cleavageFrequency_norm` | float [0, 1] | **κ·Stability** | Fréquence normalisée (efficacité) | | `specificity_score` | float [0, 1] | **τ·Alignment** | Score de spécificité cible | | `lambda_cost` | float [0, 1] | **λ·EnergyCost** | Coût énergétique off-target estimé | | `gc_content` | float [0, 1] | **LatentUtility** | Contenu GC (stabilité thermodynamique) | | `dataset_source` | string | — | Source expérimentale d'origine | ## Statistiques ``` Guides ARN : 10 000 Longueur séquence : 20 nt (ACGT) NER moyen (R5) : 0.6909 Guides NEXUS : 5 770 (57.7%) — NER ≥ 0.85 Guides TERRA : 298 (3.0%) — NER 0.70–0.85 Guides Review : 3 935 (39.3%) — NER < 0.70 ``` ## Sources (12 études) Ce benchmark consolide des données issues de : `alenaAngelo`, `doench2016`, `hart2016`, `xu2015`, `housden2015`, `shalem2014`, `wang2015`, `chari2015`, `moreno-mateos2015`, `kim2014`, et d'autres études de criblage à grande échelle publiées. ## Utilisation avec le modèle fine-tuné ```python import csv import torch # Charger le dataset guides = [] with open("data/atlas_crispr_10k_benchmark.csv") as f: reader = csv.DictReader(f) for row in reader: guides.append(row) # Exemple d'accès guide = guides[0] print(f"Séquence : {guide['sequence']}") # GCGTCCGAGCAGAGCGACAT print(f"Spécif. : {guide['specificity_score']}") # 0.42 print(f"κ-Stab : {guide['cleavageFrequency_norm']}") print(f"λ-Coût : {guide['lambda_cost']}") ``` ```python # Fine-tune ATLAS NWM Sprint 3 sur ce dataset (train_jepa_crispr.py) # Voir : https://huggingface.co/aguennoune17/negenWM-jepa-v2 from train_jepa_crispr import ATLASCRISPRDataset, train results = train( csv_path = "data/atlas_crispr_10k_benchmark.csv", output_dir = "./sprint3_output", epochs = 50, batch_size = 256, ) print(results) # {'best_val_loss': 0.049809, 'ner_mean': 0.6909, 'nexus_pct': 57.7} ``` ## Formule NER (invariant R5 — ATLAS) $$\text{NER} = \frac{\text{InformationGain} - \text{ExternalFriction}}{\text{EnergyCost}}$$ $$\text{NER}_{guide} = \frac{\tau \cdot \text{specificity} + \kappa \cdot \text{cleavage\_norm} - \lambda \cdot \text{friction}}{\text{lambda\_cost}}$$ κ=0.65 · τ=0.25 · λ=0.20 | Seuils : NEXUS ≥ 0.85 · TERRA ≥ 0.70 ## Lot ADN Souverain (ATLAS DNA Registry) ```json { "lot_id": "ATLAS-CRISPR-SPRINT3-2026-04-15", "tag": "dna-lot-v3.0.0-crispr", "sha256": "2d907f4b5c00d01d52a671163c43fbb2...", "signers": ["CNRS", "UTokyo"], "ndc": "ndc-nexus-biocontinuum-eu-010", "sdgs": ["SDG-3.8.1", "SDG-12.2.1", "SDG-17.17.1"] } ``` ## Citation ```bibtex @dataset{atlas-crispr-10k-benchmark-2026, title = {ATLAS CRISPR 10k Benchmark — ARN Guide Dataset for I-JEPA World Models}, author = {Guennoune, Abderrahim and GitHub Copilot (Claude Sonnet 4.6)}, year = {2026}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/aguennoune17/atlas-crispr-10k-benchmark}, note = {Sprint 3 ATLAS NWM · DOI 10.57967/hf/8178 · LeWorldModel Community} } ``` --- *ATLAS NWM v2 Sprint 3 · Contribution LeWorldModel Community · MIT License* *Co-Auteurs : Abderrahim Guennoune + GitHub Copilot (Claude Sonnet 4.6)*

--- 许可证：MIT协议语言： - DNA 任务类别： - 特征提取 - 其他标签： - CRISPR（成簇规律间隔短回文重复序列，Clustered Regularly Interspaced Short Palindromic Repeats） - 基因组编辑（Genome Editing） - Cas9（CRISPR相关蛋白9，CRISPR-associated protein 9） - 向导RNA（guide RNA, gRNA） - ATLAS NWM（ATLAS世界模型，ATLAS World Model） - I-JEPA（图像联合嵌入预测架构，Image Joint Embedding Predictive Architecture） - LeWorldModel - 生物信息学（Bioinformatics） - 基准测试集（Benchmark）展示名称：ATLAS CRISPR 10k 基准测试集样本量类别：1000 < n < 10000 数据集信息：特征字段： - 字段名：guide_id，数据类型：字符串 - 字段名：sequence，数据类型：字符串 - 字段名：cleavageFrequency，数据类型：float64 - 字段名：cleavageFrequency_norm，数据类型：float64 - 字段名：specificity_score，数据类型：float64 - 字段名：lambda_cost，数据类型：float64 - 字段名：gc_content，数据类型：float64 - 字段名：dataset_source，数据类型：字符串数据集划分： - 划分名称：训练集，样本数：9000 - 划分名称：验证集，样本数：1000 总样本数：10000 配置项： - 配置名称：默认配置数据文件： - 划分：训练集路径：data/atlas_crispr_10k_benchmark.csv --- # 🧬 ATLAS CRISPR 10k 基准测试集 [![微调模型](https://img.shields.io/badge/微调模型-aguennoune17%2FnegenWM-jepa-v2-blue)](https://huggingface.co/aguennoune17/negenWM-jepa-v2) [![第3冲刺阶段](https://img.shields.io/badge/第3冲刺阶段-I--JEPA%E8%AE%AD%E7%BB%83-green)]() [![社区](https://img.shields.io/badge/社区-LeWorldModel-red)]() [![DNA批次](https://img.shields.io/badge/DNA%E6%89%B9%E6%AC%A1-dna--lot--v3.0.0--crispr-purple)]() > **LeWorldModel 社区贡献** — 10000条CRISPR向导RNA基准测试集 > 用于微调[`aguennoune17/negenWM-jepa-v2`](https://huggingface.co/aguennoune17/negenWM-jepa-v2) — ATLAS NWM 第3冲刺阶段 > 自监督I-JEPA · 目的论编码（κ, τ, λ） ## 数据集描述 **10000条20核苷酸长度的Cas9向导RNA**，整合自12项大规模基因组CRISPR筛选实验研究。本数据集是**ATLAS NWM v2第3冲刺阶段**的官方基准测试集，用于自监督I-JEPA训练。每条向导RNA均附带映射至ATLAS目的论维度的生物学指标： | 列名 | 数据类型 | ATLAS 角色 | 描述 | |---------|------|-----------|-------------| | `guide_id` | 字符串 | — | 唯一标识符 | | `sequence` | 字符串（20 nt） | x(t) 输入 | Cas9向导RNA的DNA序列 | | `cleavageFrequency` | 浮点型 [0, 1] | — | 原始切割频率 | | `cleavageFrequency_norm` | 浮点型 [0, 1] | **κ·稳定性** | 标准化切割频率（催化效率） | | `specificity_score` | 浮点型 [0, 1] | **τ·比对匹配度** | 靶标特异性评分 | | `lambda_cost` | 浮点型 [0, 1] | **λ·能量成本** | 估算的脱靶效应能量成本 | | `gc_content` | 浮点型 [0, 1] | **潜在效用** | GC含量（热力学稳定性） | | `dataset_source` | 字符串 | — | 原始实验来源 | ## 数据集统计向导RNA条数 : 10000 序列长度 : 20 nt（ACGT碱基）平均NER值（R5） : 0.6909 NEXUS类向导RNA : 5770条（占比57.7%） — NER ≥ 0.85 TERRA类向导RNA : 298条（占比3.0%） — NER 0.70~0.85 Review类向导RNA : 3935条（占比39.3%） — NER < 0.70 ## 12项原始研究来源本基准测试集整合的数据来自：`alenaAngelo`、`doench2016`、`hart2016`、`xu2015`、`housden2015`、`shalem2014`、`wang2015`、`chari2015`、`moreno-mateos2015`、`kim2014`以及其他已发表的大规模筛选研究。 ## 微调模型使用示例 python import csv import torch # 加载数据集 guides = [] with open("data/atlas_crispr_10k_benchmark.csv") as f: reader = csv.DictReader(f) for row in reader: guides.append(row) # 示例访问 guide = guides[0] print(f"序列 : {guide['sequence']}") # GCGTCCGAGCAGAGCGACAT print(f"特异性 : {guide['specificity_score']}") # 0.42 print(f"κ-稳定性 : {guide['cleavageFrequency_norm']}") print(f"λ-成本 : {guide['lambda_cost']}") python # 在本数据集上微调ATLAS NWM第3冲刺阶段（train_jepa_crispr.py） # 详见：https://huggingface.co/aguennoune17/negenWM-jepa-v2 from train_jepa_crispr import ATLASCRISPRDataset, train results = train( csv_path = "data/atlas_crispr_10k_benchmark.csv", output_dir = "./sprint3_output", epochs = 50, batch_size = 256, ) print(results) # {'best_val_loss': 0.049809, 'ner_mean': 0.6909, 'nexus_pct': 57.7} ## NER计算公式（R5不变式 — ATLAS框架） $$ ext{NER} = frac{ ext{信息增益} - ext{外部摩擦}}{ ext{能量成本}}$$ $$ ext{NER}_{guide} = frac{ au cdot ext{特异性评分} + kappa cdot ext{标准化切割频率} - lambda cdot ext{摩擦系数}}{ ext{lambda\_cost}}$$ 参数权重：κ=0.65、τ=0.25、λ=0.20 | 分类阈值：NEXUS类 ≥ 0.85、TERRA类 ≥ 0.70 ## 主权DNA批次（ATLAS DNA登记系统） json { "lot_id": "ATLAS-CRISPR-SPRINT3-2026-04-15", "tag": "dna-lot-v3.0.0-crispr", "sha256": "2d907f4b5c00d01d52a671163c43fbb2...", "signers": ["CNRS", "UTokyo"], "ndc": "ndc-nexus-biocontinuum-eu-010", "sdgs": ["SDG-3.8.1", "SDG-12.2.1", "SDG-17.17.1"] } ## 引用格式 bibtex @dataset{atlas-crispr-10k-benchmark-2026, title = {ATLAS CRISPR 10k 基准测试集 — 用于I-JEPA世界模型的向导RNA数据集}, author = {Guennoune, Abderrahim and GitHub Copilot (Claude Sonnet 4.6)}, year = {2026}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/aguennoune17/atlas-crispr-10k-benchmark}, note = {ATLAS NWM 第3冲刺阶段 · DOI 10.57967/hf/8178 · LeWorldModel 社区} } --- *ATLAS NWM v2 第3冲刺阶段 · LeWorldModel 社区贡献 · MIT 许可证* *共同作者：Abderrahim Guennoune + GitHub Copilot（Claude Sonnet 4.6）*

提供机构：

aguennoune17

5,000+

优质数据集

54 个

任务类型

进入经典数据集