L+M-24
收藏L+M-24 数据集
数据集概述
L+M-24 数据集是为 ACL 2024 的 Language + Molecules Workshop 共享任务创建的。该数据集专注于分子设计中自然语言的三个关键优势:组合性、功能性和抽象性。
数据集下载
数据集可通过 HuggingFace 下载:
| 分割 | 链接 | 描述 |
|---|---|---|
| Train | LPM-24_train | 共享任务的完整训练数据。 |
| Train-Extra | LPM-24_train-extra | 共享任务的额外训练数据,每个分子有5个生成的描述。 |
| Evaluation -- Molecule Generation | LPM-24_eval-molgen | 分子生成的评估数据,仅包含输入描述。 |
| Evaluation -- Caption Generation | LPM-24_eval-caption | 分子描述生成的评估数据。 |
此外,数据集还提供了压缩文件 data.zip 和 additional_data.zip,其中包含一些可能对训练或评估有用的文件。
评估
评估代码和说明可在 evaluation 目录中找到。
引用
如果使用该数据集或代码,请引用以下文献:
bibtex @article{edwards2024_LPM24, title={L+M-24: Building a Dataset for Language+Molecules @ ACL 2024}, author={Edwards, Carl and Wang, Qingyun and Zhou, Lawrence and Ji, Heng}, journal={arXiv preprint arXiv:2403.00791}, year={2024} }
@inproceedings{edwards-etal-2022-translation, title = "Translation between Molecules and Natural Language", author = "Edwards, Carl and Lai, Tuan and Ros, Kevin and Honke, Garrett and Cho, Kyunghyun and Ji, Heng", booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2022", address = "Abu Dhabi, United Arab Emirates", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.emnlp-main.26", pages = "375--413", }



