five

QM9|量子化学数据集|分子性质数据集

收藏
quantum-machine.org2024-11-01 收录
量子化学
分子性质
下载链接:
http://quantum-machine.org/datasets/
下载链接
链接失效反馈
资源简介:
QM9数据集包含134k个有机小分子化合物的量子化学计算结果,涵盖了12个量子化学性质,如分子能量、电离能、电子亲和能等。
提供机构:
quantum-machine.org
AI搜集汇总
数据集介绍
main_image_url
构建方式
QM9数据集的构建基于量子化学计算,涵盖了134,000个有机分子,这些分子由碳、氢、氮、氧和氟元素组成,且分子量不超过900道尔顿。数据集通过密度泛函理论(DFT)计算,获取了分子在基态下的几何结构、能量、电荷分布等量子化学性质。构建过程中,研究人员采用了高精度的计算方法,确保了数据的准确性和可靠性。
特点
QM9数据集以其广泛的应用领域和丰富的量子化学信息著称。该数据集不仅包含了分子的几何结构和能量信息,还提供了多种量子化学性质,如HOMO和LUMO能级、极化率等。这些数据为分子设计、药物发现和材料科学等领域的研究提供了宝贵的资源。此外,QM9数据集的规模和多样性使其成为机器学习和数据挖掘研究的理想选择。
使用方法
QM9数据集的使用方法多样,适用于不同领域的研究需求。研究人员可以通过访问数据集的官方网站或相关数据库,下载所需的分子和性质数据。在机器学习领域,QM9数据集常用于训练和验证分子性质预测模型,如能量预测、电荷分布分析等。在量子化学研究中,该数据集可用于验证和优化计算方法,提升计算效率和精度。此外,QM9数据集还支持分子设计和材料模拟等应用,为科学研究提供了强大的数据支持。
背景与挑战
背景概述
QM9数据集,由Raghunathan Ramakrishnan及其团队于2014年创建,专注于小分子化学领域。该数据集包含了134,000个有机分子的量子化学计算结果,涵盖了分子结构、能量、振动频率等关键属性。QM9的发布极大地推动了分子建模和材料科学的发展,为研究人员提供了一个标准化的基准,用于验证和开发新的计算方法和机器学习模型。其核心研究问题在于如何高效且准确地预测分子性质,从而加速新材料的发现和设计。
当前挑战
尽管QM9数据集在分子建模领域具有重要影响力,但其构建和应用过程中仍面临诸多挑战。首先,数据集的规模和复杂性要求高效的计算资源和算法,以确保计算结果的准确性和可靠性。其次,分子性质的多样性和相互作用机制的复杂性,使得模型训练和验证过程充满挑战。此外,如何将量子化学计算结果与实验数据相结合,以提高预测模型的泛化能力,也是一个亟待解决的问题。这些挑战不仅影响数据集的实际应用效果,也对相关领域的技术进步提出了更高的要求。
发展历史
创建时间与更新
QM9数据集于2014年首次发布,由Raghunathan Ramakrishnan等人创建,旨在为量子化学领域提供一个标准化的基准数据集。该数据集在2017年进行了更新,增加了更多的分子结构和属性数据,以适应不断发展的计算化学需求。
重要里程碑
QM9数据集的发布标志着量子化学计算领域的一个重要里程碑。它包含了134,000个有机分子的几何、能量和热力学性质,为机器学习和量子化学的交叉研究提供了丰富的数据资源。此外,QM9的发布也促进了分子性质预测模型的开发和验证,推动了计算化学和材料科学的发展。
当前发展情况
当前,QM9数据集已成为量子化学和机器学习领域的重要参考资源。它不仅被广泛用于训练和测试各种分子性质预测模型,还促进了新型计算方法的开发。随着计算能力的提升和数据处理技术的进步,QM9数据集的应用范围不断扩大,对药物设计、材料科学和环境科学等领域的研究产生了深远影响。
发展历程
  • QM9数据集首次发表,包含了134k个有机分子的几何、能量和热力学性质,为分子科学研究提供了丰富的数据资源。
    2014年
  • QM9数据集首次应用于机器学习领域,研究人员利用该数据集训练模型,以预测分子性质,推动了化学信息学的发展。
    2015年
  • QM9数据集被广泛应用于量子化学计算方法的验证和基准测试,成为评估新算法性能的重要工具。
    2017年
  • QM9数据集在材料科学领域的应用取得显著进展,研究人员利用该数据集探索新型材料的性质和潜在应用。
    2019年
  • QM9数据集的扩展版本发布,增加了更多的分子和性质数据,进一步丰富了研究资源,促进了跨学科研究的发展。
    2021年
常用场景
经典使用场景
在量子化学领域,QM9数据集被广泛用于分子性质预测和机器学习模型的训练。该数据集包含了134,000个有机分子的几何结构和13种量子化学性质,如分子能量、电离能和电子亲和能等。通过这些数据,研究人员可以开发和验证各种预测模型,从而提高对复杂分子行为的理解。
解决学术问题
QM9数据集解决了量子化学中分子性质预测的难题,特别是在缺乏实验数据的情况下。通过提供大量标准化的分子数据,该数据集使得研究人员能够探索和验证新的理论模型和计算方法。这不仅推动了量子化学的发展,还为材料科学和药物设计提供了重要的理论支持。
衍生相关工作
基于QM9数据集,许多经典工作得以展开。例如,研究者们开发了多种深度学习模型,如图神经网络(GNNs),用于更精确地预测分子性质。此外,该数据集还促进了量子化学与机器学习的交叉研究,推动了领域内的新方法和技术的诞生。这些工作不仅提升了分子模拟的精度,还为未来的研究提供了新的方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录