five

CausalBench|因果推理数据集|生物医学研究数据集

收藏
arXiv2023-07-03 更新2024-06-21 收录
因果推理
生物医学研究
下载链接:
https://github.com/causalbench/causalbench
下载链接
链接失效反馈
资源简介:
CausalBench是由GSK.ai、ETH Zürich和Stanford University合作创建的大型数据集,专注于从单细胞扰动数据中进行网络推理。该数据集包含超过20万个干预样本,用于评估和比较不同的因果推理方法。CausalBench不仅提供了大规模的真实世界干预数据,还引入了生物学意义的性能指标,以量化比较由因果推理方法提出的图。数据集的应用领域主要集中在生物医学研究,特别是在基因调控网络的构建和优化中,旨在解决如何更准确地从实验数据中推断基因间的因果关系。
提供机构:
GSK.ai
创建时间:
2022-10-31
AI搜集汇总
数据集介绍
main_image_url
构建方式
CausalBench数据集的构建基于大规模单细胞扰动实验的真实干预数据,旨在评估因果推断方法在真实世界环境中的表现。数据集包含超过200,000个干预样本,涵盖了500多种基因干预。通过CRISPR基因编辑技术,研究人员对单个细胞进行了基因敲除实验,并记录了基因表达的变化。数据经过严格的质量控制,确保干预的有效性和数据的可靠性。CausalBench还引入了基于生物学的性能指标,包括新的基于分布的干预度量,以更全面地评估因果网络推断方法的表现。
特点
CausalBench数据集的特点在于其大规模的真实干预数据和多样化的基因扰动实验。数据集不仅包含大量的观测样本,还提供了丰富的干预样本,使得研究人员能够在真实生物系统中评估因果推断方法的性能。此外,CausalBench引入了基于生物学的性能指标,如基因-基因相互作用的分布度量,能够更准确地反映因果推断方法在真实数据中的表现。数据集还提供了多种基线方法的实现,便于研究人员进行对比和评估。
使用方法
CausalBench的使用方法包括加载数据集、选择评估方法、运行因果推断算法并计算性能指标。研究人员可以通过CausalBench提供的标准化接口,轻松地将自己的因果推断方法与基线方法进行对比。数据集支持多种输入格式,包括观测数据和干预数据,用户可以根据需要选择不同的数据组合进行实验。CausalBench还提供了详细的文档和示例代码,帮助研究人员快速上手并进行深入的分析。通过CausalBench,研究人员可以系统地评估因果推断方法在真实数据中的表现,并推动因果网络推断领域的研究进展。
背景与挑战
背景概述
CausalBench是由GSK.ai、ETH Zürich和Stanford University的研究团队于2023年推出的一个大规模基准测试套件,旨在评估从单细胞扰动数据中进行网络推理的因果推断方法。该数据集基于真实的干预性数据,涵盖了超过20万个干预样本,旨在解决传统因果推断方法在合成数据集上表现良好但在真实系统中表现不佳的问题。CausalBench的引入为因果网络推理研究开辟了新的途径,并提供了一个可靠的方式来跟踪利用真实世界干预数据的进展。该数据集在生物医学领域具有重要影响力,特别是在基因调控网络(GRN)的构建和药物疗效研究中。
当前挑战
CausalBench面临的挑战主要包括两个方面:首先,因果推断方法在真实世界数据中的表现评估存在困难,尤其是在干预和控制条件下的观测数据获取上。其次,构建过程中遇到的挑战包括如何有效地利用大规模单细胞扰动数据,以及如何建立可靠的因果基准来评估和比较图形网络推理方法。此外,现有方法在处理大规模数据时的可扩展性不足,且利用干预信息的方法并未显著优于仅使用观测数据的方法,这与合成基准上的表现形成了鲜明对比。这些挑战凸显了在因果网络推理领域进一步开发新方法的必要性。
常用场景
经典使用场景
CausalBench数据集在单细胞扰动实验中的网络推断领域具有广泛的应用。其经典使用场景包括通过大规模的单细胞RNA测序数据,结合干预和观察数据,推断基因调控网络(GRN)。该数据集提供了超过20万个干预样本,涵盖了500多种基因干预,使得研究人员能够在真实的生物系统中评估因果推断方法的性能。
衍生相关工作
CausalBench的推出催生了一系列相关研究,特别是在因果网络推断和单细胞数据分析领域。基于CausalBench的研究工作包括改进现有的因果推断算法,开发新的干预数据利用方法,以及探索基因调控网络的动态特性。此外,CausalBench还促进了机器学习社区对大规模干预数据的关注,推动了因果推断方法在生物医学领域的应用。
数据集最近研究
最新研究方向
CausalBench作为单细胞扰动数据网络推断的大规模基准,近年来在因果推断领域引起了广泛关注。该数据集通过整合大规模的单细胞RNA测序实验数据,提供了超过200,000个干预样本,为因果网络推断方法的评估提供了真实世界的干预数据。CausalBench不仅引入了基于生物学的性能指标,还开发了新的基于分布的干预度量,使得研究者能够更准确地评估因果推断方法在真实数据上的表现。当前的研究方向主要集中在如何提高因果推断方法的可扩展性,并更好地利用干预数据。尽管现有的因果推断方法在合成数据上表现优异,但在CausalBench上的评估表明,这些方法在真实数据上的表现并不如预期,尤其是那些利用干预信息的方法并未显著优于仅使用观测数据的方法。这一发现强调了在真实世界数据上进行因果推断方法评估的重要性,并为未来的研究提供了新的方向。CausalBench的推出不仅为因果网络推断研究开辟了新途径,还为利用真实世界干预数据进行因果推断的进展提供了可靠的工具。
相关研究论文
  • 1
    CausalBench: A Large-scale Benchmark for Network Inference from Single-cell Perturbation DataGSK.ai · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

RADIOML 2016.10A

一个合成数据集,使用GNU Radio生成,包含11种调制方式(8种数字和3种模拟),信号噪声比各异。该数据集首次在第六届年度GNU Radio会议上发布。

github 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录