five

oligotox-phase2-dataset

收藏
Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/DBbun/oligotox-phase2-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
OligoTox Phase 2 Dataset是一个计算生成的、适合AI建模的数据集,用于模拟寡核苷酸相关的肝毒性。该数据集由DBbun LLC发布,作为NIH/NCATS OligoTox开放数据挑战第二阶段的一部分。数据集包含寡核苷酸序列、化学修饰模式、递送平台、剂量/暴露背景、体外或转化肝脏相关检测背景、对照和毒性读数的结构化表格。最终数据集包含1,120条寡核苷酸记录(1,000条生成的非对照寡核苷酸和120条对照)、5,600个检测实例、16,800个重复水平的毒性读数以及127个表格,包括8个核心建模表格(寡核苷酸元数据、聚合化学、位置级修饰、生物物理、剂量、检测、读数和对照)以及每个来源的证据模块和辅助元数据文件。数据集旨在用于开发、训练、基准测试和压力测试寡核苷酸毒性的计算机预测模型。所有值均为计算生成,带有行级来源元数据,区分文献基础的生成值与推断和报告值。

The OligoTox Phase 2 Dataset is a computationally generated, AI-ready dataset designed to model oligonucleotide-related hepatotoxicity. It was released by DBbun LLC as part of the NIH/NCATS OligoTox Open Data Challenge Phase 2. The dataset includes structured tables of oligonucleotide sequences, chemical modification patterns, delivery platforms, dose/exposure contexts, in vitro or translational liver-related assay contexts, controls, and toxicity readouts. The final dataset contains 1,120 oligonucleotide records (1,000 generated non-control oligonucleotides and 120 controls), 5,600 assay instances, 16,800 replicate-level toxicity readouts, and 127 tables, including 8 core modeling tables (oligonucleotide metadata, aggregate chemistry, position-level modifications, biophysical, dose, assay, readout, and control) as well as evidence modules for each source and auxiliary metadata files. The dataset is intended for use in developing, training, benchmarking, and stress-testing in silico predictive models of oligonucleotide toxicity. All values are computationally generated with row-level provenance metadata distinguishing literature-based generated values from inferred and reported values.
创建时间:
2026-05-07
搜集汇总
数据集介绍
main_image_url
构建方式
OligoTox Phase 2数据集由DBbun LLC基于文献依据,通过计算生成策略精心构建,旨在表征寡核苷酸相关的肝毒性。该数据集巧妙连接寡核苷酸序列、化学修饰模式、递送平台、剂量/暴露背景、体外或转化肝脏相关检测环境、对照组及毒性读数,最终整合为结构化的表格体系。数据生成过程遵循严格的可追溯性,每条记录均携带来源元数据,明确区分文献报道值、推断值与计算生成值,并通过随机校准引入检测特异性噪声,以模拟真实预测结构的复杂性。
特点
该数据集具备显著特色:包含1,120条寡核苷酸记录、5,600个检测实例及16,800个重复级别毒性读数,覆盖8个核心建模表格与105个逐来源证据模块。数据集中精心设计了风险标签分布(60%低风险、30%中风险、10%高风险),形成了具有挑战性的非平凡分类任务。尤为独特的是,每条生成值都附有五种来源标签之一,确保模型训练中数据来源的透明性,同时提供了全面的治理元数据与校准审计信息。
使用方法
使用时,用户可通过Python的pandas库便捷加载核心建模表格,如oligos.csv、chemical_modifications.csv、toxicity_readouts.csv等。建议根据建模需求,围绕oligo_id等共享标识符进行表间连接,并从每个辅助表中精选预测变量列,避免列名冲突。对于聚焦序列寡核苷酸的建模场景,应通过is_administered_oligo字段过滤得到有效记录。以随机森林分类器在标准预测变量上运行,整体准确率可达约0.84,低风险类别F1分数为0.95,展现了该数据集在离线毒性预测模型开发中的实用价值。
背景与挑战
背景概述
寡核苷酸疗法(包括反义寡核苷酸和小干扰RNA)因其能够精准调控基因表达而成为现代药物开发的前沿领域,然而,肝毒性作为该类疗法临床转化中的关键障碍,严重限制了其应用前景。为应对这一挑战,DBbun LLC于2026年发布了OligoTox Phase 2数据集,作为参与美国国立卫生研究院/国家转化科学促进中心主办的OligoTox开放数据挑战赛第二阶段的核心成果。该数据集通过整合文献证据与计算生成策略,构建了包含1120条寡核苷酸记录、5600个检测实例及16800个重复层级毒性读数的结构化表格体系,旨在为寡核苷酸肝毒性的硅学预测模型提供训练、基准测试与压力测试的标准化资源。数据集的设计系统性地涵盖了序列信息、化学修饰模式、递送平台、剂量暴露情境与肝脏相关检测背景,为理解寡核苷酸毒性机制与推动预测毒理学研究奠定了重要基础。
当前挑战
该数据集主要解决两大核心挑战。在领域问题层面,寡核苷酸诱导的肝毒性机制复杂多变,涉及序列依赖与非依赖性效应,且传统湿实验评估成本高昂、通量有限,严重抑制了候选药物的快速筛选与优化。OligoTox Phase 2通过提供大规模、多维度、具备文献依据的计算生成数据,使研究者能够开发可靠的硅学预测模型,从而加速早期毒性筛查并降低实验风险。在构建过程中,团队面临数据来源异构性、毒性标签分布不均衡(低风险60%、中风险30%、高风险10%)以及生成值可追溯性等挑战。为此,设计与实施了一套涵盖文献报告值、推断值与计算生成值的五级来源标签体系,并对毒性读数的随机校准步骤进行完整审计记录,确保数据具备可重复性与建模可行性,同时明确标注了未实验验证的局限性,以避免对监管决策产生误导。
常用场景
经典使用场景
OligoTox Phase 2 数据集的核心应用在于构建和评估寡核苷酸类药物肝毒性预测模型。该数据集整合了寡核苷酸序列、化学修饰模式、递送平台、剂量暴露信息、体外或转化肝毒性实验背景以及毒性读数,形成了结构化的数据表体系。研究者可基于该数据集开展有监督的分类与回归任务,利用寡核苷酸属性与实验条件作为特征,预测肝毒性风险等级或连续毒性指标。数据集中提供的1,120条寡核苷酸记录、5,600个实验实例以及16,800个重复级毒性读数,为模型训练与基准测试提供了丰富的数据基础。
衍生相关工作
该数据集的发布催生了多项衍生性研究工作。在建模方法论层面,基于8张核心建模表的特征工程已衍生出随机森林基线模型(总体准确率约0.84)及针对高低风险类别不平衡问题的加权分类策略。数据集的证明元数据层(provenance labels)启发了因果推断与不确定性量化方向的探索,研究者可区分直接报告值、推断值与文献接地生成值对模型性能的贡献。此外,数据集的证据模块(105个逐源表)推动了知识图谱与文献计量分析在毒性机制归纳中的应用。同时,该数据集与 DBbun 此前发布的MELD-Plus等合成生物医学数据形成了跨病种的基准测试生态,促进了在硅毒理学与精准医学交叉领域的新工具开发。
数据集最近研究
最新研究方向
当前,寡核苷酸疗法如反义寡核苷酸(ASO)和小干扰RNA(siRNA)在精准医疗中展现出巨大潜力,但其肝毒性问题严重制约了临床转化。OligoTox Phase 2数据集应运而生,作为NIH/NCATS开放数据挑战赛的成果,它整合了1120条寡核苷酸记录与5600个检测实验实例,涵盖序列、化学修饰、递送平台及毒性读数等多维结构化信息。该数据集聚焦于利用机器学习构建肝毒性预测模型,通过文献驱动的计算生成策略与随机校准噪声,模拟真实实验变异性,为药物毒理学家提供了基准测试平台。这一前沿方向不仅推动了从序列到毒性图谱的端到端预测范式发展,还响应了行业内对减少动物实验、加速候选药物筛选的迫切需求,在基因治疗与肝脏疾病药物开发中具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作