five

aguennoune17/atlas-crispr-10k-benchmark

收藏
Hugging Face2026-04-18 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/aguennoune17/atlas-crispr-10k-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit language: - dna task_categories: - feature-extraction - other tags: - crispr - genome-editing - cas9 - guide-rna - atlas-nwm - i-jepa - leworldmodel - bioinformatics - benchmark pretty_name: ATLAS CRISPR 10k Benchmark size_categories: - 1K<n<10K dataset_info: features: - name: guide_id dtype: string - name: sequence dtype: string - name: cleavageFrequency dtype: float64 - name: cleavageFrequency_norm dtype: float64 - name: specificity_score dtype: float64 - name: lambda_cost dtype: float64 - name: gc_content dtype: float64 - name: dataset_source dtype: string splits: - name: train num_examples: 9000 - name: validation num_examples: 1000 num_rows: 10000 configs: - config_name: default data_files: - split: train path: data/atlas_crispr_10k_benchmark.csv --- # 🧬 ATLAS CRISPR 10k Benchmark [![Model](https://img.shields.io/badge/Fine--tuned%20Model-aguennoune17%2FnegenWM-jepa-v2-blue)](https://huggingface.co/aguennoune17/negenWM-jepa-v2) [![Sprint 3](https://img.shields.io/badge/Sprint%203-I--JEPA%20Training-green)]() [![LeWorldModel](https://img.shields.io/badge/Community-LeWorldModel-red)]() [![DNA Lot](https://img.shields.io/badge/DNA%20Lot-dna--lot--v3.0.0--crispr-purple)]() > **Contribution communauté LeWorldModel** — Benchmark CRISPR 10k guides ARN > Utilisé pour fine-tuner [`aguennoune17/negenWM-jepa-v2`](https://huggingface.co/aguennoune17/negenWM-jepa-v2) — ATLAS NWM Sprint 3 > Self-supervised I-JEPA · Encodage téléologique (κ, τ, λ) ## Description **10 000 guides ARN Cas9 de 20 nucléotides** consolidés depuis 12 études expérimentales de criblage CRISPR génomique à grande échelle. Ce dataset est le benchmark officiel du **Sprint 3 ATLAS NWM v2** — entraînement I-JEPA auto-supervisé. Chaque guide est enrichi avec des métriques biologiques mappées aux dimensions téléologiques ATLAS : | Colonne | Type | Rôle ATLAS | Description | |---------|------|-----------|-------------| | `guide_id` | string | — | Identifiant unique | | `sequence` | string (20-nt) | x(t) input | Séquence ADN guide Cas9 | | `cleavageFrequency` | float [0, 1] | — | Fréquence de coupure brute | | `cleavageFrequency_norm` | float [0, 1] | **κ·Stability** | Fréquence normalisée (efficacité) | | `specificity_score` | float [0, 1] | **τ·Alignment** | Score de spécificité cible | | `lambda_cost` | float [0, 1] | **λ·EnergyCost** | Coût énergétique off-target estimé | | `gc_content` | float [0, 1] | **LatentUtility** | Contenu GC (stabilité thermodynamique) | | `dataset_source` | string | — | Source expérimentale d'origine | ## Statistiques ``` Guides ARN : 10 000 Longueur séquence : 20 nt (ACGT) NER moyen (R5) : 0.6909 Guides NEXUS : 5 770 (57.7%) — NER ≥ 0.85 Guides TERRA : 298 (3.0%) — NER 0.70–0.85 Guides Review : 3 935 (39.3%) — NER < 0.70 ``` ## Sources (12 études) Ce benchmark consolide des données issues de : `alenaAngelo`, `doench2016`, `hart2016`, `xu2015`, `housden2015`, `shalem2014`, `wang2015`, `chari2015`, `moreno-mateos2015`, `kim2014`, et d'autres études de criblage à grande échelle publiées. ## Utilisation avec le modèle fine-tuné ```python import csv import torch # Charger le dataset guides = [] with open("data/atlas_crispr_10k_benchmark.csv") as f: reader = csv.DictReader(f) for row in reader: guides.append(row) # Exemple d'accès guide = guides[0] print(f"Séquence : {guide['sequence']}") # GCGTCCGAGCAGAGCGACAT print(f"Spécif. : {guide['specificity_score']}") # 0.42 print(f"κ-Stab : {guide['cleavageFrequency_norm']}") print(f"λ-Coût : {guide['lambda_cost']}") ``` ```python # Fine-tune ATLAS NWM Sprint 3 sur ce dataset (train_jepa_crispr.py) # Voir : https://huggingface.co/aguennoune17/negenWM-jepa-v2 from train_jepa_crispr import ATLASCRISPRDataset, train results = train( csv_path = "data/atlas_crispr_10k_benchmark.csv", output_dir = "./sprint3_output", epochs = 50, batch_size = 256, ) print(results) # {'best_val_loss': 0.049809, 'ner_mean': 0.6909, 'nexus_pct': 57.7} ``` ## Formule NER (invariant R5 — ATLAS) $$\text{NER} = \frac{\text{InformationGain} - \text{ExternalFriction}}{\text{EnergyCost}}$$ $$\text{NER}_{guide} = \frac{\tau \cdot \text{specificity} + \kappa \cdot \text{cleavage\_norm} - \lambda \cdot \text{friction}}{\text{lambda\_cost}}$$ κ=0.65 · τ=0.25 · λ=0.20 | Seuils : NEXUS ≥ 0.85 · TERRA ≥ 0.70 ## Lot ADN Souverain (ATLAS DNA Registry) ```json { "lot_id": "ATLAS-CRISPR-SPRINT3-2026-04-15", "tag": "dna-lot-v3.0.0-crispr", "sha256": "2d907f4b5c00d01d52a671163c43fbb2...", "signers": ["CNRS", "UTokyo"], "ndc": "ndc-nexus-biocontinuum-eu-010", "sdgs": ["SDG-3.8.1", "SDG-12.2.1", "SDG-17.17.1"] } ``` ## Citation ```bibtex @dataset{atlas-crispr-10k-benchmark-2026, title = {ATLAS CRISPR 10k Benchmark — ARN Guide Dataset for I-JEPA World Models}, author = {Guennoune, Abderrahim and GitHub Copilot (Claude Sonnet 4.6)}, year = {2026}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/aguennoune17/atlas-crispr-10k-benchmark}, note = {Sprint 3 ATLAS NWM · DOI 10.57967/hf/8178 · LeWorldModel Community} } ``` --- *ATLAS NWM v2 Sprint 3 · Contribution LeWorldModel Community · MIT License* *Co-Auteurs : Abderrahim Guennoune + GitHub Copilot (Claude Sonnet 4.6)*

--- 许可证:MIT协议 语言: - DNA 任务类别: - 特征提取 - 其他 标签: - CRISPR(成簇规律间隔短回文重复序列,Clustered Regularly Interspaced Short Palindromic Repeats) - 基因组编辑(Genome Editing) - Cas9(CRISPR相关蛋白9,CRISPR-associated protein 9) - 向导RNA(guide RNA, gRNA) - ATLAS NWM(ATLAS世界模型,ATLAS World Model) - I-JEPA(图像联合嵌入预测架构,Image Joint Embedding Predictive Architecture) - LeWorldModel - 生物信息学(Bioinformatics) - 基准测试集(Benchmark) 展示名称:ATLAS CRISPR 10k 基准测试集 样本量类别:1000 < n < 10000 数据集信息: 特征字段: - 字段名:guide_id,数据类型:字符串 - 字段名:sequence,数据类型:字符串 - 字段名:cleavageFrequency,数据类型:float64 - 字段名:cleavageFrequency_norm,数据类型:float64 - 字段名:specificity_score,数据类型:float64 - 字段名:lambda_cost,数据类型:float64 - 字段名:gc_content,数据类型:float64 - 字段名:dataset_source,数据类型:字符串 数据集划分: - 划分名称:训练集,样本数:9000 - 划分名称:验证集,样本数:1000 总样本数:10000 配置项: - 配置名称:默认配置 数据文件: - 划分:训练集 路径:data/atlas_crispr_10k_benchmark.csv --- # 🧬 ATLAS CRISPR 10k 基准测试集 [![微调模型](https://img.shields.io/badge/微调模型-aguennoune17%2FnegenWM-jepa-v2-blue)](https://huggingface.co/aguennoune17/negenWM-jepa-v2) [![第3冲刺阶段](https://img.shields.io/badge/第3冲刺阶段-I--JEPA%E8%AE%AD%E7%BB%83-green)]() [![社区](https://img.shields.io/badge/社区-LeWorldModel-red)]() [![DNA批次](https://img.shields.io/badge/DNA%E6%89%B9%E6%AC%A1-dna--lot--v3.0.0--crispr-purple)]() > **LeWorldModel 社区贡献** — 10000条CRISPR向导RNA基准测试集 > 用于微调[`aguennoune17/negenWM-jepa-v2`](https://huggingface.co/aguennoune17/negenWM-jepa-v2) — ATLAS NWM 第3冲刺阶段 > 自监督I-JEPA · 目的论编码(κ, τ, λ) ## 数据集描述 **10000条20核苷酸长度的Cas9向导RNA**,整合自12项大规模基因组CRISPR筛选实验研究。本数据集是**ATLAS NWM v2第3冲刺阶段**的官方基准测试集,用于自监督I-JEPA训练。 每条向导RNA均附带映射至ATLAS目的论维度的生物学指标: | 列名 | 数据类型 | ATLAS 角色 | 描述 | |---------|------|-----------|-------------| | `guide_id` | 字符串 | — | 唯一标识符 | | `sequence` | 字符串(20 nt) | x(t) 输入 | Cas9向导RNA的DNA序列 | | `cleavageFrequency` | 浮点型 [0, 1] | — | 原始切割频率 | | `cleavageFrequency_norm` | 浮点型 [0, 1] | **κ·稳定性** | 标准化切割频率(催化效率) | | `specificity_score` | 浮点型 [0, 1] | **τ·比对匹配度** | 靶标特异性评分 | | `lambda_cost` | 浮点型 [0, 1] | **λ·能量成本** | 估算的脱靶效应能量成本 | | `gc_content` | 浮点型 [0, 1] | **潜在效用** | GC含量(热力学稳定性) | | `dataset_source` | 字符串 | — | 原始实验来源 | ## 数据集统计 向导RNA条数 : 10000 序列长度 : 20 nt(ACGT碱基) 平均NER值(R5) : 0.6909 NEXUS类向导RNA : 5770条(占比57.7%) — NER ≥ 0.85 TERRA类向导RNA : 298条(占比3.0%) — NER 0.70~0.85 Review类向导RNA : 3935条(占比39.3%) — NER < 0.70 ## 12项原始研究来源 本基准测试集整合的数据来自:`alenaAngelo`、`doench2016`、`hart2016`、`xu2015`、`housden2015`、`shalem2014`、`wang2015`、`chari2015`、`moreno-mateos2015`、`kim2014`以及其他已发表的大规模筛选研究。 ## 微调模型使用示例 python import csv import torch # 加载数据集 guides = [] with open("data/atlas_crispr_10k_benchmark.csv") as f: reader = csv.DictReader(f) for row in reader: guides.append(row) # 示例访问 guide = guides[0] print(f"序列 : {guide['sequence']}") # GCGTCCGAGCAGAGCGACAT print(f"特异性 : {guide['specificity_score']}") # 0.42 print(f"κ-稳定性 : {guide['cleavageFrequency_norm']}") print(f"λ-成本 : {guide['lambda_cost']}") python # 在本数据集上微调ATLAS NWM第3冲刺阶段(train_jepa_crispr.py) # 详见:https://huggingface.co/aguennoune17/negenWM-jepa-v2 from train_jepa_crispr import ATLASCRISPRDataset, train results = train( csv_path = "data/atlas_crispr_10k_benchmark.csv", output_dir = "./sprint3_output", epochs = 50, batch_size = 256, ) print(results) # {'best_val_loss': 0.049809, 'ner_mean': 0.6909, 'nexus_pct': 57.7} ## NER计算公式(R5不变式 — ATLAS框架) $$ ext{NER} = frac{ ext{信息增益} - ext{外部摩擦}}{ ext{能量成本}}$$ $$ ext{NER}_{guide} = frac{ au cdot ext{特异性评分} + kappa cdot ext{标准化切割频率} - lambda cdot ext{摩擦系数}}{ ext{lambda\_cost}}$$ 参数权重:κ=0.65、τ=0.25、λ=0.20 | 分类阈值:NEXUS类 ≥ 0.85、TERRA类 ≥ 0.70 ## 主权DNA批次(ATLAS DNA登记系统) json { "lot_id": "ATLAS-CRISPR-SPRINT3-2026-04-15", "tag": "dna-lot-v3.0.0-crispr", "sha256": "2d907f4b5c00d01d52a671163c43fbb2...", "signers": ["CNRS", "UTokyo"], "ndc": "ndc-nexus-biocontinuum-eu-010", "sdgs": ["SDG-3.8.1", "SDG-12.2.1", "SDG-17.17.1"] } ## 引用格式 bibtex @dataset{atlas-crispr-10k-benchmark-2026, title = {ATLAS CRISPR 10k 基准测试集 — 用于I-JEPA世界模型的向导RNA数据集}, author = {Guennoune, Abderrahim and GitHub Copilot (Claude Sonnet 4.6)}, year = {2026}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/aguennoune17/atlas-crispr-10k-benchmark}, note = {ATLAS NWM 第3冲刺阶段 · DOI 10.57967/hf/8178 · LeWorldModel 社区} } --- *ATLAS NWM v2 第3冲刺阶段 · LeWorldModel 社区贡献 · MIT 许可证* *共同作者:Abderrahim Guennoune + GitHub Copilot(Claude Sonnet 4.6)*
提供机构:
aguennoune17
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作