ChEBI-20
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/ChEBI-20
下载链接
链接失效反馈官方服务:
资源简介:
数据集包含 33,010 个分子描述对,分成 80\%/10\%/10\% 训练/验证/测试拆分。该任务的目标是检索自然语言描述的相关分子。它定义如下:为了突破多模态模型的界限,我们提出了一个新的 IR 任务:\textbf{Text2Mol}。给定一个文本查询和没有任何参考文本信息的分子列表(例如,表示为 SMILES 字符串、图形或其他等效表示),检索与查询对应的分子。从分子的文本描述中,模型必须将描述中的信息合并到可用于直接检索分子的语义表示中。这需要整合两种截然不同的信息:文本表示的结构化知识和分子图中存在的化学性质。我们假设每个描述只有一个正确的(相关的)分子,因此我们为此任务考虑两个度量:Hits@1 和平均倒数排名 (MRR)。 80% 的数据用于训练。检索是针对整个分子语料库(train、val、test)进行的。
This dataset comprises 33,010 molecular description pairs, partitioned into 80%/10%/10% training/validation/test splits. The objective of this task is to retrieve relevant molecules matching natural language descriptions. It is formally defined as follows: To advance the frontier of multimodal models, we propose a novel information retrieval (IR) task: extbf{Text2Mol}. Given a text query and a list of molecules without any associated reference textual information (e.g., represented as SMILES strings, molecular graphs, or other equivalent representations), the model must retrieve the molecules corresponding to the query. Leveraging the textual descriptions of molecules, the model is required to integrate the information contained in these descriptions into semantic representations that enable direct molecular retrieval. This task necessitates integrating two distinct categories of information: the structured knowledge embedded in the textual representations and the chemical properties inherent to molecular graphs. We assume that each description maps to exactly one correct (relevant) molecule, and thus adopt two evaluation metrics for this task: Hits@1 and Mean Reciprocal Rank (MRR). 80% of the dataset is allocated for training. Retrieval is conducted over the entire molecular corpus, which encompasses the training, validation, and test splits.
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍

背景与挑战
背景概述
ChEBI-20是一个用于跨模态分子检索的数据集,包含33,010个分子描述对,分为80%/10%/10%的训练/验证/测试拆分。该数据集旨在支持Text2Mol任务,即从自然语言查询中检索相关分子,评估指标包括Hits@1和平均倒数排名(MRR),由伊利诺伊大学厄巴纳香槟分校于2021年发布。
以上内容由遇见数据集搜集并总结生成



