BENGI
收藏github2022-12-17 更新2024-05-31 收录
下载链接:
https://github.com/cmb-chula/bio-datasets
下载链接
链接失效反馈官方服务:
资源简介:
一个增强子-基因相互作用的基准数据集,整合了注册的cCREs与实验得出的3D染色质相互作用、遗传相互作用和CRISPR/dCAS9扰动,涵盖21个数据集和13种生物样本。
A benchmark dataset for enhancer-gene interactions, integrating registered cCREs with experimentally derived 3D chromatin interactions, genetic interactions, and CRISPR/dCAS9 perturbations, encompassing 21 datasets and 13 biological samples.
创建时间:
2020-06-30
原始信息汇总
数据集概述
分子生物学
-
BENGI
- 描述: 整合了21个数据集中的候选增强子-基因相互作用(cCREs)与实验得出的3D染色质相互作用、遗传相互作用和CRISPR/dCAS9扰动。
- 日期: 2020年1月
- 大小: 162,000个独特的cCRE-基因对。
-
Proteasome Digestion Database
- 描述: 通过质谱分析体外蛋白酶消化55种合成多肽产生的肽产物。
- 日期: 2020年5月
- 大小: 15,028个剪接肽和7,305个非剪接肽。
单细胞转录组学
- scRNA-seq Protocol Benchmark
- 描述: 对13种常用单细胞RNA测序协议的基准数据集,样本包括人类PBMC、小鼠结肠细胞和各种细胞系。
- 日期: 2020年4月
- 大小: 每种协议约3,000个细胞的转录组数据。
药物
-
Drug Combination Effects
- 描述: 在多种癌症细胞系和疟疾及埃博拉感染模型中测试的23,595种药物组合矩阵。
- 日期: 2019年12月
- 大小: 23,595种药物组合矩阵。
-
AstraZenecas DREAM Challenge
- 描述: AstraZeneca的DREAM挑战赛数据和竞赛结果,用于预测药物组合的效果。
- 日期: 2019年6月
- 大小: 910种药物组合的11,576次实验。
-
Chemical Checker
- 描述: 约800,000种小分子的结构、化学和生物属性集合。
- 日期: 2020年5月
- 大小: 最多778,460种小分子的25种属性。
-
Drug-Protein Interaction Prediction
- 描述: 使用端到端深度学习方法预测药物-蛋白质相互作用,描述了三个公共数据集。
- 日期: 2020年2月
- 大小: 62,392个正相互作用和超过1.4M个负相互作用。
癌症
-
PCAWG Consortium
- 描述: 通过全基因组测序检测到的2606个肿瘤的体细胞乘客突变模式,代表了24种常见癌症类型。
- 日期: 2020年2月
- 大小: 2,606个肿瘤的遗传突变。
-
Multi-omic Clustering Benchmark
- 描述: 用于整合多组学数据(基因表达、miRNA表达和DNA甲基化)以识别TCGA数据集中不同癌症患者群体的方法基准。
- 日期: 2018年11月
- 大小: 10种癌症类型的170-621名患者。
胸部放射图像
-
NIH Chest 14
- 描述: NIH发布的胸部X光图像,疾病注释自动从放射科医生报告中提取。
- 日期: 2017年
- 大小: 112,120张胸部X光图像,来自30,805名患者,具有14种疾病类别标签。
-
MIMIC-CXR-JPG
- 描述: 来自Beth Israel Deaconess医学中心的胸部X光图像,疾病注释自动从放射科医生报告中提取。
- 日期: 2019年
- 大小: 377,110张胸部X光图像,具有14种疾病类别标签。
-
CheXpert
- 描述: 斯坦福大学医学中心提供的胸部X光图像,训练集中的疾病注释自动从放射科医生报告中提取。
- 日期: 2019年
- 大小: 224,316张胸部X光图像,来自65,240名患者,具有14种疾病类别标签。
-
VinDr-CXR
- 描述: Vin AI集团在越南提供的胸部X光图像,每张图像都经过多位放射科医生的详细注释。
- 日期: 2022年
- 大小: 18,000张胸部X光图像,具有14种疾病类别标签和病变位置的边界框。
-
BRAX
- 描述: 来自巴西Albert Einstein以色列医院的胸部X光图像,训练集中的疾病注释自动从葡萄牙语的放射科医生报告中提取。
- 日期: 2022年
- 大小: 40,967张胸部X光图像,来自19,351名患者,具有14种疾病类别标签。
-
PadChest
- 描述: 来自西班牙San Juan医院的胸部X光图像,提供了174种放射学发现、19种鉴别诊断和104种解剖位置的广泛注释。
- 日期: 2020年
- 大小: 160,000张胸部X光图像,来自67,000名患者。
- 额外: 还包括一个COVID-19扩展数据集。
搜集汇总
数据集介绍

构建方式
BENGI数据集的构建基于对增强子-基因相互作用的系统性整合,涵盖了来自13种生物样本的21个数据集。这些数据整合了cCREs注册表、实验衍生的3D染色质相互作用、遗传相互作用以及CRISPR/dCAS9扰动数据,形成了162,000个独特的cCRE-基因对。通过多源数据的融合,BENGI为增强子-靶基因预测方法提供了一个高质量的基准。
特点
BENGI数据集的特点在于其广泛覆盖的生物样本和多样化的数据来源。它不仅整合了多种实验技术生成的数据,还提供了跨样本的增强子-基因相互作用信息。数据集的规模庞大,包含162,000个独特的cCRE-基因对,为研究增强子功能及其与基因的调控关系提供了丰富的资源。此外,数据集的多样性和高质量标注使其成为计算生物学和机器学习模型开发的理想选择。
使用方法
BENGI数据集的使用方法主要包括增强子-靶基因预测模型的训练与评估。研究人员可以利用该数据集中的cCRE-基因对信息,结合机器学习算法,开发新的预测模型。此外,数据集还可用于验证现有方法的性能,通过与其他基准数据集的对比,评估模型的准确性和鲁棒性。数据集的多样性和高质量标注使其适用于多种生物信息学分析任务,如增强子功能注释、基因调控网络构建等。
背景与挑战
背景概述
BENGI数据集由Weng实验室于2020年创建,旨在为增强子-基因相互作用预测方法提供一个基准测试平台。该数据集整合了cCREs注册表、实验性三维染色质相互作用、遗传相互作用以及CRISPR/dCAS9扰动数据,涵盖了13种生物样本中的162,000个独特的cCRE-基因对。BENGI的出现为计算生物学和机器学习模型开发提供了重要的数据支持,推动了增强子-基因相互作用研究的发展。
当前挑战
BENGI数据集在构建过程中面临多重挑战。首先,增强子-基因相互作用的预测本身具有高度复杂性,涉及多维数据的整合与分析。其次,数据集的构建依赖于多种实验技术和数据来源,如何确保数据的一致性和准确性是一个关键问题。此外,不同生物样本之间的异质性也为数据标准化和模型泛化带来了挑战。尽管BENGI为相关研究提供了宝贵资源,但其在数据规模、样本多样性以及跨物种适用性方面仍有待进一步扩展与优化。
常用场景
经典使用场景
BENGI数据集在计算生物学和机器学习模型开发中具有重要应用,特别是在增强子-基因相互作用的预测和验证方面。通过整合实验数据、3D染色质相互作用和CRISPR/dCAS9扰动数据,BENGI为研究人员提供了一个全面的基准数据集,用于评估和优化增强子-靶基因预测方法。
实际应用
在实际应用中,BENGI数据集被广泛用于药物开发和疾病机制研究。例如,通过分析增强子-基因相互作用,研究人员可以识别潜在的药物靶点,并设计针对特定基因调控网络的疗法。此外,BENGI还为癌症、代谢疾病等复杂疾病的分子机制研究提供了重要数据支持。
衍生相关工作
BENGI数据集催生了许多相关研究,特别是在增强子功能预测和基因调控网络建模领域。例如,基于BENGI的研究开发了多种机器学习模型,用于预测增强子活性及其靶基因。此外,BENGI还被用于构建多组学整合分析工具,为理解基因调控的复杂性提供了新的视角。
以上内容由遇见数据集搜集并总结生成



