five

COMET|生物多组学数据集|模型评估数据集

收藏
arXiv2024-12-14 更新2024-12-25 收录
生物多组学
模型评估
下载链接:
http://arxiv.org/abs/2412.10347v1
下载链接
链接失效反馈
资源简介:
COMET是由上海人工智能实验室等机构创建的综合性生物多组学评估任务和语言模型基准。该数据集涵盖了DNA、RNA和蛋白质的单组学、跨组学和多组学任务,包含17个不同的任务,涉及基因表达、增强子活性预测、RNA二级结构预测等多个生物学领域。数据集的创建过程包括从多个数据库中提取和整合数据,确保了数据的高质量和多样性。COMET旨在评估模型在不同生物学数据类型中的表现,解决多组学数据整合和分析中的挑战,推动生物医学研究和应用的发展。
提供机构:
上海人工智能实验室
创建时间:
2024-12-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
COMET数据集的构建旨在为生物多组学任务和语言模型提供一个全面的基准测试平台。首先,研究团队从DNA、RNA和蛋白质三个层面精心挑选了一系列关键的下游任务和数据集,涵盖了结构、功能和工程等多个方面。这些任务不仅包括单一组学的任务,还涉及跨组学和多组学的任务。随后,团队评估了现有的DNA、RNA和蛋白质基础语言模型,并测试了新提出的多组学模型LucaOne。通过这些评估,COMET为研究人员提供了关于不同生物模态数据整合和分析的宝贵见解。
特点
COMET数据集的特点在于其全面性和多样性。它不仅涵盖了DNA、RNA和蛋白质的单一组学任务,还包含了跨组学和多组学的任务,使得研究人员能够在不同组学之间进行比较和整合。此外,COMET还评估了多种基础语言模型,包括DNABERT2、RNA-FM、ESM-1b等,以及多组学模型LucaOne。通过这些评估,COMET揭示了当前模型在多组学任务中的表现差距,为进一步提升多组学整合能力提供了方向。
使用方法
COMET数据集的使用方法主要包括以下几个步骤:首先,研究人员可以根据具体任务选择相应的数据集和模型。COMET提供了多种任务类型,包括基因表达预测、增强子活性预测、RNA二级结构预测等。其次,研究人员可以使用COMET提供的预训练模型进行微调,或者从头训练新的模型。最后,通过COMET提供的评估指标,研究人员可以比较不同模型在特定任务上的表现,从而选择最适合的模型。COMET还支持跨组学和多组学任务的评估,帮助研究人员探索不同组学之间的关联和整合潜力。
背景与挑战
背景概述
COMET(Comprehensive Multi-Omics Evaluation Tasks and Language Models)是由上海人工智能实验室等机构的研究团队于2024年推出的首个综合性多组学基准测试数据集。该数据集旨在评估单组学、跨组学和多组学任务中的模型性能,涵盖DNA、RNA和蛋白质等关键生物分子的结构和功能任务。COMET的创建背景源于生物信息学领域对多组学数据整合的需求,尤其是在深度学习和大语言模型快速发展的背景下,研究人员面临如何选择最适合特定任务的模型的挑战。COMET通过提供多样化的下游任务和数据集,填补了多组学研究领域缺乏全面基准测试的空白,推动了生物信息学模型在多组学数据整合与分析中的应用。
当前挑战
COMET数据集面临的挑战主要体现在两个方面。首先,在解决领域问题方面,多组学任务的复杂性对模型的整合能力提出了高要求。尽管现有的单组学模型在特定任务中表现出色,但在跨组学和多组学任务中,模型的表现仍有显著差距,尤其是在处理不同生物模态之间的交互时。其次,在数据构建过程中,研究人员面临数据多样性和一致性的挑战。由于不同组学数据的来源和格式各异,如何有效地整合这些数据并设计统一的评估标准成为一大难题。此外,多组学任务的复杂性还要求模型能够捕捉不同生物分子之间的复杂关系,这对模型的架构和训练策略提出了更高的要求。
常用场景
经典使用场景
COMET数据集在生物信息学领域中被广泛用于评估单组学、跨组学和多组学任务中的机器学习模型性能。其经典使用场景包括基因表达预测、增强子活性预测、RNA二级结构预测以及蛋白质热稳定性预测等任务。通过这些任务,COMET为研究人员提供了一个标准化的评估框架,帮助他们选择最适合特定任务的模型。
实际应用
COMET数据集在实际应用中具有广泛的潜力,特别是在精准医学、农业和工业领域。例如,通过基因表达预测,研究人员可以更好地理解基因调控网络,从而开发出更有效的疾病治疗方法。在农业中,增强子活性预测可以帮助优化作物的基因编辑,提高产量和抗病性。此外,蛋白质热稳定性预测在工业酶的设计和优化中也具有重要应用,能够提高酶在高温环境下的稳定性。
衍生相关工作
COMET数据集衍生了许多相关的研究工作,特别是在多组学模型的开发和应用方面。例如,基于COMET的评估结果,研究人员提出了LucaOne模型,该模型能够整合DNA、RNA和蛋白质数据,显著提高了多组学任务的性能。此外,COMET还推动了DNABERT2、RNA-FM和ESM-2等单组学模型的改进,使其在跨组学任务中表现出色。这些工作不仅扩展了COMET的应用范围,还为生物信息学领域的研究提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录