five

L+M-24 Dataset

收藏
github2024-02-22 更新2024-05-31 收录
下载链接:
https://github.com/language-plus-molecules/LPM-24-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
This repository contains information on the creation, evaluation, and benchmark models for the L+M-24 Dataset. L+M-24 will be featured as the shared task at The Language + Molecules Workshop at ACL 2024.

本代码仓库包含L+M-24数据集的构建、评估及基准模型相关资料。L+M-24将作为2024年国际计算语言学协会(Association for Computational Linguistics,ACL)语言与分子专题研讨会的共享任务项目。
创建时间:
2024-01-31
原始信息汇总

数据集概述

数据集名称

  • L+M-24

数据集用途

  • 用于The Language + Molecules Workshop at ACL 2024的共享任务。

数据集特点

  • 专注于自然语言在分子设计中的三个关键优势:组合性、功能性和抽象性。

数据集下载

数据集来源

  • Chemical Function (CheF)
  • ChemFOnt: the chemical functional ontology resource
  • Pubchem

引用信息

bibtex @article{edwards2024_LPM24, title={L+M-24: Building a Dataset for Language+Molecules @ ACL 2024}, author={Edwards, Carl and Wang, Qingyun and Zhou, Lawrence and Ji, Heng}, journal={arXiv preprint arXiv:2403.00791}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
L+M-24数据集的构建旨在解决分子与自然语言配对数据稀缺的问题,专注于分子设计中的组合性、功能性和抽象性。该数据集通过整合多个化学数据库,如Chemical Function (CheF)、ChemFOnt和Pubchem,确保了数据的多样性和权威性。构建过程中,采用了实体链接和模板生成技术,确保了数据的准确性和丰富性。
特点
L+M-24数据集的特点在于其专注于分子与自然语言的交互,提供了丰富的训练和评估数据。数据集分为训练集、额外训练集以及分子生成和描述生成的评估集,每部分数据都经过精心设计,以支持不同的研究需求。此外,数据集还包含了由多个数据库整合而来的高质量数据,确保了研究的广泛适用性和深度。
使用方法
L+M-24数据集的使用方法包括通过HuggingFace平台下载数据集,用户可以根据研究需求选择不同的数据分割,如训练集、额外训练集和评估集。数据集的使用还包括参与ACL 2024的共享任务,用户可以通过Codabench平台提交模型,参与分子生成和描述生成的竞赛。此外,数据集提供了详细的评估代码和指导,帮助用户进行模型训练和结果验证。
背景与挑战
背景概述
L+M-24数据集是为2024年ACL会议上的Language + Molecules Workshop共享任务而创建的,旨在推动分子发现与理解领域的研究。该数据集由Carl Edwards、Qingyun Wang、Lawrence Zhao和Heng Ji等研究人员共同开发,重点关注自然语言在分子设计中的三个关键优势:组合性、功能性和抽象性。L+M-24的构建基于多个化学数据库,如Chemical Function (CheF)、ChemFOnt和PubChem,为语言-分子模型提供了高质量的分子-语言对数据。该数据集的发布填补了现有数据集的不足,为相关领域的研究提供了重要的资源支持。
当前挑战
L+M-24数据集在解决分子与自然语言之间的翻译问题时面临多重挑战。首先,现有数据集要么规模较小且依赖于现有数据库的抓取,要么规模较大但噪声较多,难以满足高质量模型训练的需求。其次,构建过程中需要确保数据的多样性和准确性,特别是在分子描述的功能性和抽象性方面,这对数据标注和验证提出了较高要求。此外,如何有效整合多个化学数据库的数据,并确保其一致性和完整性,也是构建过程中的一大难题。这些挑战不仅影响了数据集的构建效率,也对后续模型的性能提出了更高的要求。
常用场景
经典使用场景
L+M-24数据集在分子与自然语言交互领域具有重要应用,特别是在分子设计与自然语言描述之间的转换任务中。该数据集被广泛应用于分子生成与分子描述生成的研究,尤其是在ACL 2024的Language + Molecules Workshop共享任务中,成为评估模型性能的基准数据集。通过提供高质量的分子-语言对,L+M-24为研究人员提供了一个标准化的平台,用于测试和优化语言-分子模型的性能。
衍生相关工作
L+M-24数据集衍生了一系列经典研究工作,特别是在分子生成与描述生成领域。基于该数据集,研究人员开发了多种先进的模型,如MolT5等,这些模型在分子与自然语言之间的转换任务中表现出色。此外,L+M-24还推动了分子功能预测、分子属性分析等相关研究的发展,为语言-分子交互领域的创新提供了重要支持。
数据集最近研究
最新研究方向
在分子发现与理解领域,语言与分子模型的结合已成为一个备受关注的前沿方向。然而,由于分子-语言配对数据集的稀缺性,训练这些模型面临巨大挑战。L+M-24数据集的推出,旨在解决现有数据集规模小、噪声大或基于模板构建的局限性。该数据集特别聚焦于自然语言在分子设计中的三个关键优势:组合性、功能性和抽象性。作为ACL 2024年Language + Molecules Workshop的共享任务,L+M-24不仅为研究者提供了高质量的训练与评估数据,还通过公开的排行榜和代码,推动了分子生成与描述任务的进一步发展。这一数据集的发布,标志着语言与分子交叉研究迈入了一个新的阶段,为未来智能分子设计提供了坚实的基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作