L+M-24 Dataset

github2024-02-22 更新2024-05-31 收录

下载链接：

https://github.com/language-plus-molecules/LPM-24-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

This repository contains information on the creation, evaluation, and benchmark models for the L+M-24 Dataset. L+M-24 will be featured as the shared task at The Language + Molecules Workshop at ACL 2024.

本代码仓库包含L+M-24数据集的构建、评估及基准模型相关资料。L+M-24将作为2024年国际计算语言学协会（Association for Computational Linguistics，ACL）语言与分子专题研讨会的共享任务项目。

创建时间：

2024-01-31

原始信息汇总

数据集概述

数据集名称

L+M-24

数据集用途

用于The Language + Molecules Workshop at ACL 2024的共享任务。

数据集特点

专注于自然语言在分子设计中的三个关键优势：组合性、功能性和抽象性。

数据集下载

训练数据：LPM-24_train
额外训练数据：LPM-24_train-extra
分子生成评估数据：LPM-24_eval-molgen
分子描述生成评估数据：LPM-24_eval-caption

数据集来源

Chemical Function (CheF)
ChemFOnt: the chemical functional ontology resource
Pubchem

引用信息

bibtex @article{edwards2024_LPM24, title={L+M-24: Building a Dataset for Language+Molecules @ ACL 2024}, author={Edwards, Carl and Wang, Qingyun and Zhou, Lawrence and Ji, Heng}, journal={arXiv preprint arXiv:2403.00791}, year={2024} }

搜集汇总

数据集介绍

构建方式

L+M-24数据集的构建旨在解决分子与自然语言配对数据稀缺的问题，专注于分子设计中的组合性、功能性和抽象性。该数据集通过整合多个化学数据库，如Chemical Function (CheF)、ChemFOnt和Pubchem，确保了数据的多样性和权威性。构建过程中，采用了实体链接和模板生成技术，确保了数据的准确性和丰富性。

特点

L+M-24数据集的特点在于其专注于分子与自然语言的交互，提供了丰富的训练和评估数据。数据集分为训练集、额外训练集以及分子生成和描述生成的评估集，每部分数据都经过精心设计，以支持不同的研究需求。此外，数据集还包含了由多个数据库整合而来的高质量数据，确保了研究的广泛适用性和深度。

使用方法

L+M-24数据集的使用方法包括通过HuggingFace平台下载数据集，用户可以根据研究需求选择不同的数据分割，如训练集、额外训练集和评估集。数据集的使用还包括参与ACL 2024的共享任务，用户可以通过Codabench平台提交模型，参与分子生成和描述生成的竞赛。此外，数据集提供了详细的评估代码和指导，帮助用户进行模型训练和结果验证。

背景与挑战

背景概述

L+M-24数据集是为2024年ACL会议上的Language + Molecules Workshop共享任务而创建的，旨在推动分子发现与理解领域的研究。该数据集由Carl Edwards、Qingyun Wang、Lawrence Zhao和Heng Ji等研究人员共同开发，重点关注自然语言在分子设计中的三个关键优势：组合性、功能性和抽象性。L+M-24的构建基于多个化学数据库，如Chemical Function (CheF)、ChemFOnt和PubChem，为语言-分子模型提供了高质量的分子-语言对数据。该数据集的发布填补了现有数据集的不足，为相关领域的研究提供了重要的资源支持。

当前挑战

L+M-24数据集在解决分子与自然语言之间的翻译问题时面临多重挑战。首先，现有数据集要么规模较小且依赖于现有数据库的抓取，要么规模较大但噪声较多，难以满足高质量模型训练的需求。其次，构建过程中需要确保数据的多样性和准确性，特别是在分子描述的功能性和抽象性方面，这对数据标注和验证提出了较高要求。此外，如何有效整合多个化学数据库的数据，并确保其一致性和完整性，也是构建过程中的一大难题。这些挑战不仅影响了数据集的构建效率，也对后续模型的性能提出了更高的要求。

常用场景

经典使用场景

L+M-24数据集在分子与自然语言交互领域具有重要应用，特别是在分子设计与自然语言描述之间的转换任务中。该数据集被广泛应用于分子生成与分子描述生成的研究，尤其是在ACL 2024的Language + Molecules Workshop共享任务中，成为评估模型性能的基准数据集。通过提供高质量的分子-语言对，L+M-24为研究人员提供了一个标准化的平台，用于测试和优化语言-分子模型的性能。

衍生相关工作

L+M-24数据集衍生了一系列经典研究工作，特别是在分子生成与描述生成领域。基于该数据集，研究人员开发了多种先进的模型，如MolT5等，这些模型在分子与自然语言之间的转换任务中表现出色。此外，L+M-24还推动了分子功能预测、分子属性分析等相关研究的发展，为语言-分子交互领域的创新提供了重要支持。

数据集最近研究