five

barneyhill/aso-atlas-2

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/barneyhill/aso-atlas-2
下载链接
链接失效反馈
官方服务:
资源简介:
ASO Atlas 2.0是一个用于评估反义寡核苷酸(ASO)在临床前管道中预测性能的基准数据集。数据集包含从606项USPTO专利文件中提取的283,239条测量数据,涉及168,395种独特的ASO化合物。每个化合物的化学结构均以HELM符号编码,可直接用作模型输入。数据集涵盖四种临床前检测类型,反映了ASO药物开发中使用的顺序筛选管道:单剂量体外mRNA抑制测量、多剂量体外抑制测量(用于IC50拟合)、体内肝毒性生物标志物测量(ALT、AST等)和体内神经毒性功能观察电池(FOB)评分。数据集还详细描述了数据字段、HELM化学编码、数据集创建过程、处理步骤、偏差、局限性和伦理考虑。

ASO Atlas 2.0 is a benchmark dataset for evaluating antisense oligonucleotide (ASO) prediction across the preclinical pipeline. The dataset contains 283,239 measurements across 168,395 unique ASO compounds extracted from 606 USPTO patent filings via an LLM-based extraction pipeline. Each compounds chemistry is encoded in HELM notation, enabling direct use as model input. The dataset spans four preclinical assay types that mirror the sequential screening pipeline used in ASO drug development: single-dose in vitro mRNA inhibition measurements, multi-dose in vitro inhibition measurements for dose-response curve fitting, in vivo hepatic toxicity biomarker measurements (ALT, AST, etc.), and in vivo neurotoxicity functional observation battery (FOB) scores. The README also details data fields, HELM chemistry encoding, dataset creation, processing steps, biases, limitations, and ethical considerations.
提供机构:
barneyhill
搜集汇总
数据集介绍
main_image_url
构建方式
ASO Atlas 2.0数据集通过基于大型语言模型的文本挖掘管线,从606份美国专利商标局公开的专利文件中系统提取了283,239条测量数据,涵盖168,395种独特的反义寡核苷酸化合物。每条化合物的化学结构均以HELM符号体系进行编码,确保能够直接作为模型输入。在构建过程中,研究团队实施了严格的质量过滤,包括剔除HELM序列中包含不确定性标记、长度过短、缺失DNA间隔区或均聚物的序列,并对基因名称、细胞系名称进行了标准化与CCLE数据库的富集匹配。测量值经生理学合理性范围筛选后,进一步基于化合物与测量指标的组合进行去重处理,最终形成覆盖体外抑制、剂量反应、肝毒性与神经毒性四个临床前筛选阶段的标准化数据集。
特点
该数据集的核心特色在于其系统性覆盖了反义寡核苷酸药物研发的完整临床前评价流程,从体外mRNA抑制效率到体内多维度毒性评估一应俱全。每个子配置均包含丰富的实验条件元数据,例如细胞系种属、转染方法、给药途径与周期等,为构建跨实验的预测模型提供了结构化基础。数据中的HELM化学编码完整保留了糖修饰、骨架连接与碱基修饰等关键化学信息,使得模型能够直接学习结构与活性之间的关系。此外,数据集的专利来源特性使其天然携带工业界真实研发轨迹的偏好信息,既能用于基准测试,也有助于揭示当前ASO化学空间的分布格局与潜在盲区。
使用方法
用户可通过HuggingFace的`datasets`库便捷调用该数据集,支持单配置加载与多配置批量加载两种模式。数据集未预设标准化的训练集与测试集划分,其配套论文建议采用基于专利编号的分组K折交叉验证策略,确保来自同一专利的化合物始终处于同一折内,有效防止信息泄露。在具体使用中,研究人员可将HEML符号作为序列输入,结合各实验条件特征进行回归或分类建模。对于体内毒性子集,多项生物标志物以列表形式存储,适合开展多任务学习或时序分析;而体外抑制数据则支持单剂量筛选与多剂量IC50拟合两种建模场景,充分适配从分子活性预测到毒性预警的多样化计算需求。
背景与挑战
背景概述
ASO Atlas 2.0 数据集由Barney Hill等研究团队于近期创建,旨在为反义寡核苷酸(ASO)药物的临床前研发提供标准化基准测试资源。该数据集通过基于大语言模型的文本挖掘管道,从606项美国专利商标局(USPTO)专利申请中提取了283,239项测量数据,涵盖168,395种独特ASO化合物。其核心研究问题是构建一个覆盖体外抑制、剂量反应、肝毒性和神经毒性四大临床前检测模块的综合数据集,以推动ASO药物从头设计到毒性预测的全流程机器学习建模。作为该领域首个大规模、多任务基准数据集,ASO Atlas 2.0 填补了现有公开数据在ASO化学空间和毒理学终点上的空白,对加速靶向RNA疗法的计算研发具有重要影响力。
当前挑战
ASO Atlas 2.0 数据集所解决的领域问题挑战在于:ASO药物研发长期面临化合物活性与毒性难以通过计算模型准确预测的瓶颈,尤其缺乏涵盖多种化学修饰和检测终点的大规模标准化数据集。在构建过程中,主要挑战包括:1) 数据来源偏差——所有数据均来自专利文件,导致对工业界主流化学类型(如2'-MOE gapmer)过度代表,而学术及早期研究中的新型化学修饰则显著不足;2) 提取误差——大语言模型在解析专利表格时可能引入结构注释或数值的错漏,需通过质量过滤与人工校验进行修正;3) 异质性协议——不同专利中检测条件(细胞系、剂量、时间点)差异显著,增加了跨数据集标准化与模型泛化的难度;4) 缺乏独立验证——所有测量结果均来自专利申请人自身实验,跨实验室的重现性未知,且负面结果可能存在选择性报道偏差。
常用场景
经典使用场景
ASO Atlas 2.0 数据集在反义寡核苷酸(ASO)药物研发领域具有里程碑式的意义,其最经典的用途在于为临床前筛选管线提供全面、标准化的基准测试平台。该数据集整合了涵盖体外活性、剂量反应、肝毒性与神经毒性四大核心模块的二十八万余条测量数据,能够系统性地评估和预测ASO化合物的药效与安全性。研究人员可借助HELM化学编码直接输入模型,利用组学级别的信息训练机器学习算法,实现对候选分子从初期抑制率到毒理表型的多维度预测,从而加速先导化合物的优化进程。
实际应用
在真实产业场景中,ASO Atlas 2.0可充当虚拟筛选引擎的训练基石,赋能制药企业于化合物设计阶段即排除高毒性或低效序列,从而大幅削减湿实验的试错成本与周期。其肝毒性子集涵盖ALT、AST等核心生物标志物,神经毒性子集包含功能观察电池评分,使得毒理学风险评估能够在体内实验启动之前便获得初步预警。结合剂量反应数据,研发团队可精准推算半数抑制浓度,为给药方案与治疗窗口的优化提供数据驱动决策支持。
衍生相关工作
围绕ASO Atlas 2.0已衍生出多项开创性工作,主要包括基于图神经网络与Transformer架构的ASO活性预测模型、跨专利分层的GroupKFold交叉验证框架以及面向HELM表示的化学语言预训练方法。研究者利用该数据集验证了分子指纹与注意力机制在核酸毒性预测中的有效性,并开发出能够自动识别骨架修饰对肝细胞损伤贡献的可解释模型。此外,该数据集还激发了针对专利报告偏倚的统计分析工作,推动学界重新审视商业化ASO文库的化学多样性不足问题。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作