five

Cardiomyocyte Differentiation Compound Dataset

收藏
arXiv2024-07-22 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2407.15322v1
下载链接
链接失效反馈
官方服务:
资源简介:
Cardiomyocyte Differentiation Compound Dataset由京都大学综合细胞材料科学研究所创建,包含80个化合物样本,这些化合物是KY02011的衍生物,专门用于研究心脏细胞分化。数据集通过化学合成获得,并通过特定的分化协议测试其效果。数据集主要用于开发和验证用于干细胞分化协议的新化合物设计模型,特别是在心脏细胞分化领域,旨在提高分化效率和质量。

Cardiomyocyte Differentiation Compound Dataset was created by the Institute for Integrated Cell-Material Sciences (iCeMS) of Kyoto University. It consists of 80 compound samples, all derivatives of KY02011, which are specifically developed for cardiomyocyte differentiation research. The dataset is obtained via chemical synthesis, and its efficacy is tested using a specific differentiation protocol. This dataset is primarily used to develop and validate novel compound design models for stem cell differentiation protocols, particularly in the field of cardiomyocyte differentiation, with the goal of improving differentiation efficiency and quality.
提供机构:
综合细胞材料科学研究所(iCeMS),京都大学
创建时间:
2024-07-22
搜集汇总
数据集介绍
main_image_url
构建方式
Cardiomyocyte Differentiation Compound Dataset (CDCCD) 是一个用于研究心脏细胞分化的小型化合物数据集。该数据集的构建是通过筛选80个化合物,这些化合物是 KY02011 衍生物, KY02011 是一种间接调节 Wnt 信号传导以促进心脏生成的化合物。通过荧光强度对化合物的分化效果进行分类,并将其分为不同的强度类别,最终构建了一个包含 25 个有效化合物和 55 个无效化合物的训练数据集。
特点
该数据集的特点是它包含了丰富的分子形状和亲水性信息,这些信息通过装饰形状描述符集成到分子特征表示中。这种新的分子特征表示方法与传统的基于形状的分子描述符相比,在预测化合物对心脏细胞分化的效果方面表现出更好的性能。此外,数据集还通过随机敏感性分析来诊断模型过拟合。
使用方法
该数据集可用于训练回归模型,以预测化合物对心脏细胞分化的效果。研究人员可以利用该数据集训练简单的回归模型,例如逻辑回归模型或单层前馈神经网络模型。此外,该数据集还可以用于分子设计,通过将训练数据集中的分子片段重新组合来设计新的化合物。最后,该数据集还可以用于实验验证,例如通过实时聚合酶链反应实验来评估新设计的化合物对心脏细胞分化的效果。
背景与挑战
背景概述
随着干细胞科学的突破性进展,研究在发育生物学和再生医学领域得以加速。多能干细胞具有分化成各种组织类型的潜力,这一发现为治疗多种疾病提供了新的可能性。自从2006年诱导多能干细胞(iPS细胞)的发现以来,已经开发了大量的分化方案,能够生成多种细胞类型。然而,这些方案完全是通过实验努力建立的。在数字化日益发展的时代,自然地提出了一个问题:数据科学是否能够帮助进一步的发展?本文中,研究人员展示了如何利用简单回归模型和仅包含80个例子的数据集设计一种新的化合物,以诱导心肌细胞分化。他们引入了装饰形状描述符,这是一种信息丰富的分子特征表示方法,它集成了分子形状和亲水性信息。这些模型与仅基于形状的标准分子描述符相比,表现出更好的性能。使用一种新的敏感性分析方法诊断模型过拟合。使用保守的分子设计策略设计的新化合物,其有效性通过实时聚合酶链反应实验得到证实。这项工作展示了一种可行的数据驱动策略,用于设计新的化合物以用于干细胞分化方案,并在训练数据有限的情况下非常有用。
当前挑战
该数据集面临的挑战包括:1)解决领域问题的挑战:数据集规模小,难以获取大量示例化合物的训练数据。2)构建过程中遇到的挑战:数据集规模小导致模型可能过拟合,需要开发新的方法来诊断和减轻过拟合。此外,分子特征表示的构建需要考虑分子形状和亲水性信息,这增加了计算的复杂性。
常用场景
经典使用场景
该数据集主要用于研究小分子化合物对心脏细胞分化诱导的影响。通过简单回归模型,结合仅包含80个例子的数据集,研究者成功地设计了一种新的化合物,用于诱导心肌细胞分化。该数据集的特色在于引入了装饰形状描述符,这是一种信息丰富的分子特征表示,它整合了分子形状和亲水性信息,从而提高了模型的预测性能。
衍生相关工作
该数据集衍生出了一系列相关的工作,例如使用机器学习模型对干细胞分化的不同阶段进行分类和预测,以及研究分子形状和亲水性信息对干细胞分化的影响。这些工作进一步推动了干细胞科学的发展,并为干细胞分化协议的设计提供了新的思路和方法。
数据集最近研究
最新研究方向
随着干细胞科学的突破,诱导多能干细胞分化的新型小分子化合物发现成为研究热点。Cardiomyocyte Differentiation Compound Dataset(心肌细胞分化化合物数据集)的研究表明,数据科学在有限的训练数据情况下,也能够辅助发现新的化合物,以促进干细胞分化。研究引入了装饰形状描述符,这是一种信息丰富的分子特征表示,整合了分子形状和亲水性信息,通过简单的回归模型,在包含仅80个例子的数据集上训练,实现了对心肌细胞分化的预测。此外,研究还通过实验验证了新设计化合物的有效性,为干细胞分化协议设计新化合物提供了数据驱动的策略。这一工作对于未来在资源受限的情况下进行化学筛选和分子设计具有重要意义,有望推动再生医学和发育生物学的发展。
相关研究论文
  • 1
    Molecular design for cardiac cell differentiation using a small dataset and decorated shape features综合细胞材料科学研究所(iCeMS),京都大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作