five

ChEBI-20

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/cnedwards/text2mol/tree/master/data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含33,010个分子与描述的配对样本,这些样本被分为训练集、验证集和测试集。该数据集被视为评估的黄金标准,用于强制模型关注描述的语义层面。规模上,共有33,010个配对样本,任务是对分子描述的微调与生成进行评估。

This dataset contains 33,010 paired samples of molecules and their corresponding descriptions, which are divided into training, validation, and test sets. It is regarded as a gold standard for evaluation, designed to force models to focus on the semantic level of the descriptions. In terms of scale, there are a total of 33,010 paired samples, and its core task is to evaluate the fine-tuning and generation of molecular descriptions.
提供机构:
ChEBI
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是ChEBI-20化学分子数据集,包含分子描述、分子图结构、子结构标记和嵌入向量等多种化学信息表示形式,适用于分子表示学习和化学信息处理任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作