five

L+M-24

收藏
arXiv2024-02-23 更新2024-07-23 收录
下载链接:
https://github.com/language-plus-molecules/LPM-24-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
L+M-24数据集是由伊利诺伊大学厄巴纳-香槟分校创建,专注于语言与分子结合的研究,旨在通过自然语言处理技术辅助分子设计和发现。该数据集包含160,492条分子描述对,涵盖生物医学、光与电、人类交互与感官以及农业与工业四大领域。数据集的创建过程中,利用了PubChem、Chemical Function (CheF)和ChemFOnt等多个数据库,通过GPT-4生成的模板将分子属性转换为自然语言描述。L+M-24数据集的应用领域广泛,包括药物发现、气候问题解决、工业过程优化及食品生产改进等,旨在解决未来几十年中复杂度前所未有的全球性问题。

The L+M-24 dataset was developed by the University of Illinois Urbana-Champaign, focusing on research integrating language and molecules, aiming to assist molecular design and discovery via natural language processing technologies. This dataset contains 160,492 pairs of molecular descriptions, covering four major fields: biomedicine, optics and electronics, human interaction and sensory perception, as well as agriculture and industry. During its creation, multiple databases including PubChem, Chemical Function (CheF), and ChemFOnt were utilized, and templates generated by GPT-4 were adopted to convert molecular properties into natural language descriptions. The L+M-24 dataset has broad application scenarios, spanning drug discovery, climate problem resolution, industrial process optimization, and food production improvement, with the goal of addressing unprecedentedly complex global challenges in the coming decades.
提供机构:
伊利诺伊大学厄巴纳-香槟分校
创建时间:
2024-02-23
原始信息汇总

L+M-24 数据集

数据集概述

L+M-24 数据集是为 ACL 2024 的 Language + Molecules Workshop 共享任务创建的。该数据集专注于分子设计中自然语言的三个关键优势:组合性、功能性和抽象性。

数据集下载

数据集可通过 HuggingFace 下载:

分割 链接 描述
Train LPM-24_train 共享任务的完整训练数据。
Train-Extra LPM-24_train-extra 共享任务的额外训练数据,每个分子有5个生成的描述。
Evaluation -- Molecule Generation LPM-24_eval-molgen 分子生成的评估数据,仅包含输入描述。
Evaluation -- Caption Generation LPM-24_eval-caption 分子描述生成的评估数据。

此外,数据集还提供了压缩文件 data.zipadditional_data.zip,其中包含一些可能对训练或评估有用的文件。

评估

评估代码和说明可在 evaluation 目录中找到。

引用

如果使用该数据集或代码,请引用以下文献:

bibtex @article{edwards2024_LPM24, title={L+M-24: Building a Dataset for Language+Molecules @ ACL 2024}, author={Edwards, Carl and Wang, Qingyun and Zhou, Lawrence and Ji, Heng}, journal={arXiv preprint arXiv:2403.00791}, year={2024} }

@inproceedings{edwards-etal-2022-translation, title = "Translation between Molecules and Natural Language", author = "Edwards, Carl and Lai, Tuan and Ros, Kevin and Honke, Garrett and Cho, Kyunghyun and Ji, Heng", booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2022", address = "Abu Dhabi, United Arab Emirates", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.emnlp-main.26", pages = "375--413", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作