TOMG-Bench

Name: TOMG-Bench
Creator: 香港理工大学、上海交通大学、上海人工智能实验室
Published: 2024-12-19 16:51:16
License: 暂无描述

arXiv2024-12-19 更新2024-12-21 收录

下载链接：

https://github.com/phenixace/TOMG-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

TOMG-Bench是由香港理工大学、上海交通大学和上海人工智能实验室联合创建的文本化开放分子生成基准数据集，旨在评估大型语言模型在分子生成任务中的能力。该数据集包含三个主要任务：分子编辑、分子优化和定制分子生成，每个任务包含三个子任务，每个子任务有5000个测试样本，总计45000条数据。数据集通过随机采样和化学工具箱RDKit进行构建，确保分子生成的准确性和有效性。TOMG-Bench的应用领域主要集中在药物发现和材料科学，旨在解决传统分子生成方法的局限性，推动分子设计领域的创新。

TOMG-Bench is a text-based open molecular generation benchmark dataset jointly created by The Hong Kong Polytechnic University, Shanghai Jiao Tong University, and Shanghai AI Laboratory, which aims to evaluate the capabilities of large language models (LLMs) in molecular generation tasks. This dataset encompasses three core tasks: molecular editing, molecular optimization, and customized molecular generation. Each task consists of three subtasks, with 5000 test samples per subtask, totaling 45,000 data entries. The dataset is constructed via random sampling and the chemical toolbox RDKit, ensuring the accuracy and validity of the generated molecular structures. The application domains of TOMG-Bench primarily focus on drug discovery and materials science, with the objectives of addressing the limitations of traditional molecular generation methods and promoting innovation in the field of molecular design.

提供机构：

香港理工大学、上海交通大学、上海人工智能实验室

创建时间：

2024-12-19

搜集汇总

数据集介绍

构建方式

TOMG-Bench数据集的构建基于分子编辑（MolEdit）、分子优化（MolOpt）和定制分子生成（MolCustom）三大任务，每个任务又细分为三个子任务，每个子任务包含5000个测试样本。数据集的构建不依赖于人工标注，而是通过化学工具箱RDKit自动生成和验证分子结构。对于MolCustom任务，数据集通过随机生成5000个请求，要求生成特定数量和类型的原子、键和功能基团。MolEdit和MolOpt任务则从Zinc-250K分子数据库中随机采样分子，并利用RDKit计算分子统计数据，确保任务的多样性和复杂性。

特点

TOMG-Bench数据集的显著特点在于其开放域的分子生成任务设计，允许生成多个正确答案，而非单一目标分子。数据集涵盖了分子编辑、优化和定制生成三大任务，每个任务包含多个子任务，提供了全面的分子生成能力评估。此外，数据集通过化学工具箱RDKit进行自动评估，确保生成分子的质量和准确性。TOMG-Bench还引入了OpenMolIns指令调优数据集，帮助模型在分子生成任务中表现更优。

使用方法

TOMG-Bench数据集适用于评估大型语言模型（LLMs）在文本引导的分子生成任务中的表现。用户可以通过该数据集对模型进行基准测试，评估其在分子编辑、优化和定制生成任务中的准确性、新颖性和有效性。数据集提供了详细的评估指标，包括准确性、新颖性和有效性，帮助用户全面了解模型的性能。此外，用户还可以利用OpenMolIns数据集对模型进行指令调优，进一步提升模型在分子生成任务中的表现。

背景与挑战

背景概述

TOMG-Bench是由香港理工大学、上海交通大学和上海人工智能实验室的研究团队于近期推出的一个开创性基准数据集，旨在评估大型语言模型（LLMs）在基于文本的开放分子生成任务中的能力。该数据集由三个主要任务组成：分子编辑（MolEdit）、分子优化（MolOpt）和定制分子生成（MolCustom），每个任务包含三个子任务，每个子任务包含5000个测试样本。TOMG-Bench的提出填补了现有分子生成任务的空白，特别是针对开放域分子生成的评估，其自动化评估系统能够有效衡量生成分子的质量和准确性。该数据集的发布不仅为分子发现领域提供了新的评估工具，还揭示了LLMs在分子生成任务中的潜力与局限性。

当前挑战

TOMG-Bench的构建与评估面临多重挑战。首先，开放域分子生成任务的复杂性使得模型难以在生成过程中保持高准确性和多样性。其次，分子与文本之间的对齐问题仍然是一个重大挑战，尤其是在分子描述可能存在多义性的情况下，模型往往难以泛化到定制分子生成任务。此外，现有的分子生成任务数据集（如ChEBI-20）在数据量和多样性上存在不足，无法有效支持LLMs的学习与评估。TOMG-Bench通过引入新的评估指标和任务设计，解决了这些挑战，但其数据分布和提示多样性仍需进一步优化，以更准确地反映现实场景中的分子生成需求。

常用场景

经典使用场景

TOMG-Bench 数据集最经典的使用场景在于评估大型语言模型（LLMs）在基于文本的开放分子生成任务中的表现。该数据集通过三个主要任务（分子编辑、分子优化和定制分子生成）及其子任务，全面测试了LLMs在分子设计与操作中的能力。每个子任务包含5000个测试样本，确保了评估的全面性和鲁棒性。通过自动化评估系统，TOMG-Bench能够有效衡量生成分子的质量和准确性，为分子发现领域的研究提供了强有力的支持。

实际应用

TOMG-Bench 数据集在实际应用中具有广泛的前景，特别是在药物发现和材料科学领域。通过评估LLMs在分子编辑、优化和定制生成任务中的表现，该数据集为化学家提供了强大的辅助工具，帮助他们快速生成符合特定要求的分子结构。例如，在药物设计中，化学家可以利用TOMG-Bench生成的分子进行进一步的实验验证，从而加速新药的开发过程。此外，该数据集还可用于材料科学中的分子设计，帮助研究人员生成具有特定物理或化学性质的材料。

衍生相关工作

TOMG-Bench 数据集的提出催生了一系列相关的经典工作，特别是在分子生成和文本到分子转换领域。例如，OpenMolIns 数据集作为TOMG-Bench的补充，通过指令调优帮助LLMs更好地适应分子生成任务，显著提升了模型的性能。此外，TOMG-Bench还推动了LLMs在分子生成任务中的应用研究，如MolReGPT和ICMA等模型，这些模型通过结合分子图和文本数据，进一步提升了分子生成的准确性和多样性。这些衍生工作不仅丰富了分子生成领域的研究内容，还为未来的分子发现研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集