drug-seq-u2os-novartis

Hugging Face2025-06-21 更新2025-06-22 收录

下载链接：

https://huggingface.co/datasets/TitouanCh/drug-seq-u2os-novartis

下载链接

链接失效反馈

官方服务：

资源简介：

诺华DRUG-seq U2OS MoABox数据集，包含U-2 OS人类骨肉瘤细胞系对小分子扰动产生的转录组反应。该数据集包含49,392个观察值，跨越3,742种独特化合物在4个不同剂量下的测试，每个化合物都标注了其作用机制（MoA）。每个观察值记录了59,594个基因的表达数据，使用DRUG-seq平台生成，适用于药物发现。

创建时间：

2025-06-20

原始信息汇总

Novartis DRUG-seq U2OS MoABox Dataset 概述

数据集基本信息

许可证: MIT
标签: biology
数据文件:
- 分割: train
- 路径: data/train-*
下载大小: 65,010,391,233 字节
数据集大小: 176,084,077,182 字节
样本数量: 49,392

数据集特征

counts: 序列, int32
counts_norm: 序列, float32
counts_log: 序列, float32
counts_log_norm: 序列, float32
gene_names: 序列, string
control_counts: 序列, float32
control_counts_norm: 序列, float32
control_counts_log: 序列, float32
control_counts_log_norm: 序列, float32
delta_counts: 序列的序列, float32
delta_counts_norm: 序列的序列, float32
delta_counts_log: 序列的序列, float32
delta_counts_log_norm: 序列的序列, float32
cell_line: string
perturbation: string
compound_concentration: float64
compound_unit: string
compound_smiles: string
mechanism: string
moa: string
biological_effect: string
experimental_id: string
timepoint: string
text: string
text_embeddings: 序列, float32
chembert_embeddings: 序列, float32

数据集描述

细胞系: U-2 OS 人类骨肉瘤细胞系
扰动类型: 小分子扰动
独特化合物数量: 3,742
剂量: 4 种不同浓度 + 0.0
基因数量: 59,594
平台: DRUG-seq

附加信息

归一化计数: 每个细胞的总表达量缩放至 1e4
控制计数: 所有控制细胞中每个基因的平均表达量
Delta 值: 每个样本的表达量与相应控制平均值的差异
SMILES 字符串和 MoA 注释: 来自 ChEMBL 数据库并由 Novartis 整理

引用文献

Hadjikyriacou, A., Yang, C., Henault, M., et al.
Novartis DRUG-seq U2OS MoABox Dataset
Novartis DRUG-seq GitHub Repository
Hadjikyriacou, A., Yang, C., Henault, M., Ge, R., Mansur, L., Lindeman, A., Russ, C., Renner, S., Hild, M., Jenkins, J., Gubser-Keller, C., Li, J., Ho, D. J., Neri, M., Sigoillot, F. D., & Ihry, R. (2025).
Novartis/DRUG-seq U2OS MoABox Dataset (1.0.0) [Data set]. Zenodo.
https://doi.org/10.5281/zenodo.14291446
Li, J., Ho, D. J., Henault, M., Yang, C., Neri, M., Ge, R., Renner, S., Mansur, L., Lindeman, A., Tumkaya, T., Russ, C., Hild, M., Gubser Keller, C., Jenkins, J. L., Worringer, K. A., Sigoillot, F. D., & Ihry, R. J. (2021).
DRUG-seq Provides Unbiased Biological Activity Readouts for Drug Discovery. bioRxiv.
https://doi.org/10.1101/2021.06.07.447456
Full text PDF

搜集汇总

数据集介绍

构建方式

在药物发现研究领域，Novartis DRUG-seq U2OS MoABox数据集通过高通量测序技术构建，系统地记录了U-2 OS人骨肉瘤细胞系对小分子扰动的转录组响应。该数据集包含49,392个观测样本，涵盖3,742种独特化合物在4种不同浓度下的处理效果，每个样本均包含59,594个基因的表达数据。数据采集采用DRUG-seq平台，确保转录组读数的无偏性和高重复性，并通过标准化处理使每个细胞的总表达量归一化为1e4。

特点

该数据集以其全面性和高质量注释著称，不仅提供原始基因表达计数，还包括标准化计数、对数转换值及与对照样本的差异表达数据。每个样本均附有化合物SMILES字符串、作用机制(MoA)注释和生物学效应分类，这些信息源自ChEMBL数据库并经Novartis专家团队进一步验证。特别值得注意的是，数据集包含文本描述和化学分子嵌入向量，为多模态药物发现研究提供了独特资源。

使用方法

研究人员可通过HuggingFace平台直接加载该数据集，利用其丰富的特征字段进行各类生物医学分析。基因表达数据可用于构建药物响应预测模型，SMILES字符串和化学嵌入支持分子属性研究，而MoA注释则便于机制探索。数据集中的时间点信息和实验重复设计使其特别适合纵向研究和结果验证。为保障研究可重复性，建议用户同时参考原始文献中描述的DRUG-seq数据处理流程。

背景与挑战

背景概述

Novartis DRUG-seq U2OS MoABox数据集由诺华制药公司研究团队于2025年公开发布，旨在通过高通量转录组学技术揭示小分子化合物对人类骨肉瘤细胞系U-2 OS的基因表达调控机制。该数据集包含49,392组观测数据，涵盖3,742种独特化合物在4种不同浓度下的处理效应，每条数据记录59,594个基因的表达谱。研究团队采用创新的DRUG-seq技术平台，为药物靶点发现和机制研究提供了前所未有的规模与精度。该数据集通过整合SMILES字符串、作用机制注释和化学基因组学数据，显著推进了计算药物发现领域的发展，成为连接化合物结构与生物活性的重要桥梁。

当前挑战

该数据集面临的科学挑战主要体现在两个维度：在应用层面，如何从海量基因表达数据中准确识别化合物特异性转录特征仍存在方法学瓶颈，特别是低丰度基因信号易受技术噪声干扰；在构建层面，实验设计需克服批次效应控制、多浓度梯度标准化、以及跨平台数据可比性等技术难题。数据整合过程中，化合物注释的异构性处理（如ChEMBL数据库与其他来源的机制标注协调）和转录本定量的一致性校准构成了主要工程挑战。此外，如何建立有效的负对照策略以区分真实生物效应与实验系统变异，是保证数据质量的关键环节。

常用场景

经典使用场景

在药物发现和基因组学研究中，drug-seq-u2os-novartis数据集被广泛用于分析小分子化合物对人类骨肉瘤细胞系U-2 OS的转录组影响。该数据集通过DRUG-seq技术提供了高通量的基因表达数据，涵盖了3,742种独特化合物在多种浓度下的实验数据，为研究人员提供了一个全面的参考框架，用于探索药物与细胞之间的相互作用机制。

实际应用

在实际应用中，drug-seq-u2os-novartis数据集被制药公司和研究机构用于加速药物发现流程。通过分析化合物对基因表达的影响，研究人员可以快速筛选出具有潜在治疗效果的候选药物，并进一步优化其化学结构。该数据集还为个性化医疗和精准药物开发提供了重要的数据支持。

衍生相关工作

基于drug-seq-u2os-novartis数据集，多项经典研究工作得以展开。例如，Li等人（2021）利用该数据集开发了DRUG-seq技术，证明了其在药物发现中的高效性和准确性。此外，该数据集还被用于多个药物机制研究和生物标志物发现项目，进一步拓展了其在生物医学研究中的应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集