aguennoune17/atlas-crispr-10k-benchmark
收藏Hugging Face2026-04-18 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/aguennoune17/atlas-crispr-10k-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
language:
- dna
task_categories:
- feature-extraction
- other
tags:
- crispr
- genome-editing
- cas9
- guide-rna
- atlas-nwm
- i-jepa
- leworldmodel
- bioinformatics
- benchmark
pretty_name: ATLAS CRISPR 10k Benchmark
size_categories:
- 1K<n<10K
dataset_info:
features:
- name: guide_id
dtype: string
- name: sequence
dtype: string
- name: cleavageFrequency
dtype: float64
- name: cleavageFrequency_norm
dtype: float64
- name: specificity_score
dtype: float64
- name: lambda_cost
dtype: float64
- name: gc_content
dtype: float64
- name: dataset_source
dtype: string
splits:
- name: train
num_examples: 9000
- name: validation
num_examples: 1000
num_rows: 10000
configs:
- config_name: default
data_files:
- split: train
path: data/atlas_crispr_10k_benchmark.csv
---
# 🧬 ATLAS CRISPR 10k Benchmark
[](https://huggingface.co/aguennoune17/negenWM-jepa-v2)
[]()
[]()
[]()
> **Contribution communauté LeWorldModel** — Benchmark CRISPR 10k guides ARN
> Utilisé pour fine-tuner [`aguennoune17/negenWM-jepa-v2`](https://huggingface.co/aguennoune17/negenWM-jepa-v2) — ATLAS NWM Sprint 3
> Self-supervised I-JEPA · Encodage téléologique (κ, τ, λ)
## Description
**10 000 guides ARN Cas9 de 20 nucléotides** consolidés depuis 12 études expérimentales
de criblage CRISPR génomique à grande échelle. Ce dataset est le benchmark officiel du
**Sprint 3 ATLAS NWM v2** — entraînement I-JEPA auto-supervisé.
Chaque guide est enrichi avec des métriques biologiques mappées aux dimensions téléologiques ATLAS :
| Colonne | Type | Rôle ATLAS | Description |
|---------|------|-----------|-------------|
| `guide_id` | string | — | Identifiant unique |
| `sequence` | string (20-nt) | x(t) input | Séquence ADN guide Cas9 |
| `cleavageFrequency` | float [0, 1] | — | Fréquence de coupure brute |
| `cleavageFrequency_norm` | float [0, 1] | **κ·Stability** | Fréquence normalisée (efficacité) |
| `specificity_score` | float [0, 1] | **τ·Alignment** | Score de spécificité cible |
| `lambda_cost` | float [0, 1] | **λ·EnergyCost** | Coût énergétique off-target estimé |
| `gc_content` | float [0, 1] | **LatentUtility** | Contenu GC (stabilité thermodynamique) |
| `dataset_source` | string | — | Source expérimentale d'origine |
## Statistiques
```
Guides ARN : 10 000
Longueur séquence : 20 nt (ACGT)
NER moyen (R5) : 0.6909
Guides NEXUS : 5 770 (57.7%) — NER ≥ 0.85
Guides TERRA : 298 (3.0%) — NER 0.70–0.85
Guides Review : 3 935 (39.3%) — NER < 0.70
```
## Sources (12 études)
Ce benchmark consolide des données issues de : `alenaAngelo`, `doench2016`, `hart2016`,
`xu2015`, `housden2015`, `shalem2014`, `wang2015`, `chari2015`, `moreno-mateos2015`,
`kim2014`, et d'autres études de criblage à grande échelle publiées.
## Utilisation avec le modèle fine-tuné
```python
import csv
import torch
# Charger le dataset
guides = []
with open("data/atlas_crispr_10k_benchmark.csv") as f:
reader = csv.DictReader(f)
for row in reader:
guides.append(row)
# Exemple d'accès
guide = guides[0]
print(f"Séquence : {guide['sequence']}") # GCGTCCGAGCAGAGCGACAT
print(f"Spécif. : {guide['specificity_score']}") # 0.42
print(f"κ-Stab : {guide['cleavageFrequency_norm']}")
print(f"λ-Coût : {guide['lambda_cost']}")
```
```python
# Fine-tune ATLAS NWM Sprint 3 sur ce dataset (train_jepa_crispr.py)
# Voir : https://huggingface.co/aguennoune17/negenWM-jepa-v2
from train_jepa_crispr import ATLASCRISPRDataset, train
results = train(
csv_path = "data/atlas_crispr_10k_benchmark.csv",
output_dir = "./sprint3_output",
epochs = 50,
batch_size = 256,
)
print(results)
# {'best_val_loss': 0.049809, 'ner_mean': 0.6909, 'nexus_pct': 57.7}
```
## Formule NER (invariant R5 — ATLAS)
$$\text{NER} = \frac{\text{InformationGain} - \text{ExternalFriction}}{\text{EnergyCost}}$$
$$\text{NER}_{guide} = \frac{\tau \cdot \text{specificity} + \kappa \cdot \text{cleavage\_norm} - \lambda \cdot \text{friction}}{\text{lambda\_cost}}$$
κ=0.65 · τ=0.25 · λ=0.20 | Seuils : NEXUS ≥ 0.85 · TERRA ≥ 0.70
## Lot ADN Souverain (ATLAS DNA Registry)
```json
{
"lot_id": "ATLAS-CRISPR-SPRINT3-2026-04-15",
"tag": "dna-lot-v3.0.0-crispr",
"sha256": "2d907f4b5c00d01d52a671163c43fbb2...",
"signers": ["CNRS", "UTokyo"],
"ndc": "ndc-nexus-biocontinuum-eu-010",
"sdgs": ["SDG-3.8.1", "SDG-12.2.1", "SDG-17.17.1"]
}
```
## Citation
```bibtex
@dataset{atlas-crispr-10k-benchmark-2026,
title = {ATLAS CRISPR 10k Benchmark — ARN Guide Dataset for I-JEPA World Models},
author = {Guennoune, Abderrahim and GitHub Copilot (Claude Sonnet 4.6)},
year = {2026},
publisher = {HuggingFace},
url = {https://huggingface.co/datasets/aguennoune17/atlas-crispr-10k-benchmark},
note = {Sprint 3 ATLAS NWM · DOI 10.57967/hf/8178 · LeWorldModel Community}
}
```
---
*ATLAS NWM v2 Sprint 3 · Contribution LeWorldModel Community · MIT License*
*Co-Auteurs : Abderrahim Guennoune + GitHub Copilot (Claude Sonnet 4.6)*
---
许可证:MIT协议
语言:
- DNA
任务类别:
- 特征提取
- 其他
标签:
- CRISPR(成簇规律间隔短回文重复序列,Clustered Regularly Interspaced Short Palindromic Repeats)
- 基因组编辑(Genome Editing)
- Cas9(CRISPR相关蛋白9,CRISPR-associated protein 9)
- 向导RNA(guide RNA, gRNA)
- ATLAS NWM(ATLAS世界模型,ATLAS World Model)
- I-JEPA(图像联合嵌入预测架构,Image Joint Embedding Predictive Architecture)
- LeWorldModel
- 生物信息学(Bioinformatics)
- 基准测试集(Benchmark)
展示名称:ATLAS CRISPR 10k 基准测试集
样本量类别:1000 < n < 10000
数据集信息:
特征字段:
- 字段名:guide_id,数据类型:字符串
- 字段名:sequence,数据类型:字符串
- 字段名:cleavageFrequency,数据类型:float64
- 字段名:cleavageFrequency_norm,数据类型:float64
- 字段名:specificity_score,数据类型:float64
- 字段名:lambda_cost,数据类型:float64
- 字段名:gc_content,数据类型:float64
- 字段名:dataset_source,数据类型:字符串
数据集划分:
- 划分名称:训练集,样本数:9000
- 划分名称:验证集,样本数:1000
总样本数:10000
配置项:
- 配置名称:默认配置
数据文件:
- 划分:训练集
路径:data/atlas_crispr_10k_benchmark.csv
---
# 🧬 ATLAS CRISPR 10k 基准测试集
[](https://huggingface.co/aguennoune17/negenWM-jepa-v2)
[]()
[]()
[]()
> **LeWorldModel 社区贡献** — 10000条CRISPR向导RNA基准测试集
> 用于微调[`aguennoune17/negenWM-jepa-v2`](https://huggingface.co/aguennoune17/negenWM-jepa-v2) — ATLAS NWM 第3冲刺阶段
> 自监督I-JEPA · 目的论编码(κ, τ, λ)
## 数据集描述
**10000条20核苷酸长度的Cas9向导RNA**,整合自12项大规模基因组CRISPR筛选实验研究。本数据集是**ATLAS NWM v2第3冲刺阶段**的官方基准测试集,用于自监督I-JEPA训练。
每条向导RNA均附带映射至ATLAS目的论维度的生物学指标:
| 列名 | 数据类型 | ATLAS 角色 | 描述 |
|---------|------|-----------|-------------|
| `guide_id` | 字符串 | — | 唯一标识符 |
| `sequence` | 字符串(20 nt) | x(t) 输入 | Cas9向导RNA的DNA序列 |
| `cleavageFrequency` | 浮点型 [0, 1] | — | 原始切割频率 |
| `cleavageFrequency_norm` | 浮点型 [0, 1] | **κ·稳定性** | 标准化切割频率(催化效率) |
| `specificity_score` | 浮点型 [0, 1] | **τ·比对匹配度** | 靶标特异性评分 |
| `lambda_cost` | 浮点型 [0, 1] | **λ·能量成本** | 估算的脱靶效应能量成本 |
| `gc_content` | 浮点型 [0, 1] | **潜在效用** | GC含量(热力学稳定性) |
| `dataset_source` | 字符串 | — | 原始实验来源 |
## 数据集统计
向导RNA条数 : 10000
序列长度 : 20 nt(ACGT碱基)
平均NER值(R5) : 0.6909
NEXUS类向导RNA : 5770条(占比57.7%) — NER ≥ 0.85
TERRA类向导RNA : 298条(占比3.0%) — NER 0.70~0.85
Review类向导RNA : 3935条(占比39.3%) — NER < 0.70
## 12项原始研究来源
本基准测试集整合的数据来自:`alenaAngelo`、`doench2016`、`hart2016`、`xu2015`、`housden2015`、`shalem2014`、`wang2015`、`chari2015`、`moreno-mateos2015`、`kim2014`以及其他已发表的大规模筛选研究。
## 微调模型使用示例
python
import csv
import torch
# 加载数据集
guides = []
with open("data/atlas_crispr_10k_benchmark.csv") as f:
reader = csv.DictReader(f)
for row in reader:
guides.append(row)
# 示例访问
guide = guides[0]
print(f"序列 : {guide['sequence']}") # GCGTCCGAGCAGAGCGACAT
print(f"特异性 : {guide['specificity_score']}") # 0.42
print(f"κ-稳定性 : {guide['cleavageFrequency_norm']}")
print(f"λ-成本 : {guide['lambda_cost']}")
python
# 在本数据集上微调ATLAS NWM第3冲刺阶段(train_jepa_crispr.py)
# 详见:https://huggingface.co/aguennoune17/negenWM-jepa-v2
from train_jepa_crispr import ATLASCRISPRDataset, train
results = train(
csv_path = "data/atlas_crispr_10k_benchmark.csv",
output_dir = "./sprint3_output",
epochs = 50,
batch_size = 256,
)
print(results)
# {'best_val_loss': 0.049809, 'ner_mean': 0.6909, 'nexus_pct': 57.7}
## NER计算公式(R5不变式 — ATLAS框架)
$$ ext{NER} = frac{ ext{信息增益} - ext{外部摩擦}}{ ext{能量成本}}$$
$$ ext{NER}_{guide} = frac{ au cdot ext{特异性评分} + kappa cdot ext{标准化切割频率} - lambda cdot ext{摩擦系数}}{ ext{lambda\_cost}}$$
参数权重:κ=0.65、τ=0.25、λ=0.20 | 分类阈值:NEXUS类 ≥ 0.85、TERRA类 ≥ 0.70
## 主权DNA批次(ATLAS DNA登记系统)
json
{
"lot_id": "ATLAS-CRISPR-SPRINT3-2026-04-15",
"tag": "dna-lot-v3.0.0-crispr",
"sha256": "2d907f4b5c00d01d52a671163c43fbb2...",
"signers": ["CNRS", "UTokyo"],
"ndc": "ndc-nexus-biocontinuum-eu-010",
"sdgs": ["SDG-3.8.1", "SDG-12.2.1", "SDG-17.17.1"]
}
## 引用格式
bibtex
@dataset{atlas-crispr-10k-benchmark-2026,
title = {ATLAS CRISPR 10k 基准测试集 — 用于I-JEPA世界模型的向导RNA数据集},
author = {Guennoune, Abderrahim and GitHub Copilot (Claude Sonnet 4.6)},
year = {2026},
publisher = {HuggingFace},
url = {https://huggingface.co/datasets/aguennoune17/atlas-crispr-10k-benchmark},
note = {ATLAS NWM 第3冲刺阶段 · DOI 10.57967/hf/8178 · LeWorldModel 社区}
}
---
*ATLAS NWM v2 第3冲刺阶段 · LeWorldModel 社区贡献 · MIT 许可证*
*共同作者:Abderrahim Guennoune + GitHub Copilot(Claude Sonnet 4.6)*
提供机构:
aguennoune17



