LACHEBI-20
收藏arXiv2025-02-11 更新2025-02-12 收录
下载链接:
https://github.com/zhiqiangzhongddu/LA3
下载链接
链接失效反馈官方服务:
资源简介:
LACHEBI-20是一个分子数据集,由奥胡斯大学的研究团队创建。该数据集包含33010个分子实体,以化学化合物为中心。每个分子都使用SMILES字符串表示,并附带高质量的手动注释。LACHEBI-20通过LA3框架对CHEBI-20数据集中的注释进行自动增强,生成具有多样化句子结构和词汇的注释,以提升模型的性能和鲁棒性。该数据集的应用领域包括文本基础的全新分子生成和分子字幕生成等分子任务。
LACHEBI-20 is a molecular dataset created by a research team from Aarhus University. It contains 33,010 molecular entities centered on chemical compounds. Each molecule is represented using a SMILES string and accompanied by high-quality manual annotations. LACHEBI-20 automatically enhances the annotations from the CHEBI-20 dataset via the LA3 framework, generating annotations with diverse sentence structures and vocabulary to improve model performance and robustness. Application areas of this dataset include molecular tasks such as text-based de novo molecular generation and molecular captioning.
提供机构:
奥胡斯大学
创建时间:
2025-02-11
原始信息汇总
LA3
数据集概述
- 数据集名称:LA3
数据集详情
- 数据集描述:README文件中未提供详细描述。
搜集汇总
数据集介绍

构建方式
LACHEBI-20数据集的构建是基于CHEBI-20数据集,通过LA3(Language-based Automatic Annotation Augmentation)框架利用大型语言模型(LLMs)对现有数据集的分子注释进行系统性地改写。这些改写的注释在保持分子基本信息的同时,提供了更多样化的句子结构和词汇。LA3框架在无需人工监督的情况下,通过提示LLMs重新生成新的注释,从而丰富了数据集的多样性。
使用方法
LACHEBI-20数据集的使用方法包括以下步骤:首先,使用LA3框架对CHEBI-20数据集的分子注释进行改写,生成新的注释;然后,将改写的注释与原有的SMILES字符串一起用于训练LAMOLT5模型。LAMOLT5模型在LACHEBI-20数据集上训练后,可以用于文本基础上的新分子生成和分子注释任务。通过使用LACHEBI-20数据集,LAMOLT5模型在分子生成任务上取得了显著的性能提升,甚至超过了参数量更大的MOLT5模型。
背景与挑战
背景概述
LACHEBI-20数据集是由Aarhus大学和微软的研究人员于2025年创建的,旨在解决生物研究领域中高质量标注数据稀缺的问题。该数据集的核心研究问题是将分子数据与自然语言相结合,以加速药物发现。为了克服数据稀缺的限制,研究人员提出了LA3框架,该框架利用大型语言模型自动增强现有数据集的标注,从而提高AI训练的效果。LACHEBI-20数据集通过系统性地重写CHEBI-20数据集中分子的标注,保留了重要的分子信息,同时提供了更多样化的句子结构和词汇。该数据集的创建对相关领域产生了深远的影响,为文本生成新分子和分子描述等任务提供了重要的数据基础。
当前挑战
LACHEBI-20数据集面临的挑战主要包括:1) 分子数据标注的稀缺性,限制了AI模型的发展;2) 分子数据标注的成本高、耗时长,需要专业设备和人力;3) 利用大型语言模型进行数据增强时,存在模型理解和生成领域特定数据的局限性;4) 数据增强过程中需要确保生成标注的质量和准确性,以避免引入噪声或缺乏必要的分子知识。
常用场景
经典使用场景
LACHEBI-20 数据集是 LA3 自动标注增强框架的一个应用实例,旨在通过利用大型语言模型来增强现有数据集的标注,从而提升 AI 训练的效果。LACHEBI-20 数据集通过系统地重写 CHEBI-20 数据集中分子的标注,保留了分子信息的同时提供了更多样化的句子结构和词汇,从而使得训练出的模型能够更好地理解和生成分子相关的文本描述。
解决学术问题
LACHEBI-20 数据集解决了高质量标注数据稀缺的问题。分子数据标注是一个昂贵且耗时的过程,限制了 AI 方法的有效性和泛化能力。LACHEBI-20 数据集通过自动标注增强的方法,为分子数据标注提供了一个有效的解决方案,提高了 AI 训练的效果和泛化能力。
实际应用
LACHEBI-20 数据集在实际应用中可以用于分子生成和分子描述任务。例如,可以使用 LAMOLT5 模型在 LACHEBI-20 数据集上进行训练,以生成新的分子和描述分子的文本。LACHEBI-20 数据集也可以用于其他领域的数据增强任务,例如图像描述、文本理解和图属性预测。
数据集最近研究
最新研究方向
在生物信息学和自然语言处理交叉领域的最新研究中,LA3框架的引入为解决分子数据与自然语言之间映射的挑战提供了创新性的解决方案。该框架通过利用大型语言模型自动增强现有数据集的注释,有效提升了AI训练的效果。LACHEBI-20数据集的创建展示了LA3框架在系统性地重写分子注释方面的能力,这些重写注释不仅保留了关键的分子信息,还提供了更多样化的句子结构和词汇。通过使用LACHEBI-20数据集训练的LAMOLT5模型在文本基础的分子生成和分子标题生成任务上表现出色,相较于现有模型取得了显著的性能提升。LA3框架的通用性和实用性在图像、文本和图形任务中的应用也得到了验证,显示了其在多个领域的潜力。
相关研究论文
- 1Automatic Annotation Augmentation Boosts Translation between Molecules and Natural Language奥胡斯大学 · 2025年
以上内容由遇见数据集搜集并总结生成



