ChEBI-20
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/ChEBI-20
下载链接
链接失效反馈官方服务:
资源简介:
数据集包含 33,010 个分子描述对,分成 80\%/10\%/10\% 训练/验证/测试拆分。该任务的目标是检索自然语言描述的相关分子。它定义如下:为了突破多模态模型的界限,我们提出了一个新的 IR 任务:\textbf{Text2Mol}。给定一个文本查询和没有任何参考文本信息的分子列表(例如,表示为 SMILES 字符串、图形或其他等效表示),检索与查询对应的分子。从分子的文本描述中,模型必须将描述中的信息合并到可用于直接检索分子的语义表示中。这需要整合两种截然不同的信息:文本表示的结构化知识和分子图中存在的化学性质。我们假设每个描述只有一个正确的(相关的)分子,因此我们为此任务考虑两个度量:Hits@1 和平均倒数排名 (MRR)。 80% 的数据用于训练。检索是针对整个分子语料库(train、val、test)进行的。
提供机构:
OpenDataLab
创建时间:
2022-05-23



