ChEBI-20
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/cnedwards/text2mol/tree/master/data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含33,010个分子与描述的配对样本,这些样本被分为训练集、验证集和测试集。该数据集被视为评估的黄金标准,用于强制模型关注描述的语义层面。规模上,共有33,010个配对样本,任务是对分子描述的微调与生成进行评估。
This dataset contains 33,010 paired samples of molecules and their corresponding descriptions, which are divided into training, validation, and test sets. It is regarded as a gold standard for evaluation, designed to force models to focus on the semantic level of the descriptions. In terms of scale, there are a total of 33,010 paired samples, and its core task is to evaluate the fine-tuning and generation of molecular descriptions.
提供机构:
ChEBI
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是ChEBI-20化学分子数据集,包含分子描述、分子图结构、子结构标记和嵌入向量等多种化学信息表示形式,适用于分子表示学习和化学信息处理任务。
以上内容由遇见数据集搜集并总结生成



