five

maomlab/AqSolDB|化学数据集|数据分析数据集

收藏
hugging_face2025-01-30 更新2024-03-04 收录
化学
数据分析
下载链接:
https://hf-mirror.com/datasets/maomlab/AqSolDB
下载链接
链接失效反馈
资源简介:
AqSolDB是由自主能源材料发现[AMD]研究组创建的数据集,包含了从9个不同的公开可用的水溶性数据集中整理的9,982种独特化合物的水溶性数据。这个公开可访问的数据集是同类中最大的,不仅作为测量溶解度数据的有用参考源,还作为构建数据驱动模型的改进和可推广的训练数据源。数据集提供了化合物的2D描述符,并标准化和验证了化合物表示格式,标记了可靠性标签。

AqSolDB是由自主能源材料发现[AMD]研究组创建的数据集,包含了从9个不同的公开可用的水溶性数据集中整理的9,982种独特化合物的水溶性数据。这个公开可访问的数据集是同类中最大的,不仅作为测量溶解度数据的有用参考源,还作为构建数据驱动模型的改进和可推广的训练数据源。数据集提供了化合物的2D描述符,并标准化和验证了化合物表示格式,标记了可靠性标签。
提供机构:
maomlab
原始信息汇总

Aqueous Solubility Database (AqSolDB)

数据集概述

AqSolDB 是一个包含 9,982 个独特化合物的水溶性值的数据集,这些数据从 9 个不同的公开可用水溶性数据集中整理而来。

数据集信息

  • 语言: 英语
  • 许可证: MIT
  • 来源: 精选
  • 任务类别: 表格回归
  • 标签: 化学, 化学信息学
  • 大小类别: 1K<n<10K
  • 配置名称: AqSolDB

数据文件

  • 配置: AqSolDB
    • 测试集:
      • 路径: AqSolDB/test.csv
      • 文件大小: 578736 字节
      • 样本数量: 2494
    • 训练集:
      • 路径: AqSolDB/train.csv
      • 文件大小: 1737344 字节
      • 样本数量: 7488

数据特征

  • ID: 字符串
  • Name: 字符串
  • InChI: 字符串
  • InChIKey: 字符串
  • SMILES: 字符串
  • Solubility: 浮点数 (float64)
  • SD: 浮点数 (float64)
  • Ocurrences: 整数 (int64)
  • Group: 字符串
  • MolWt: 浮点数 (float64)
  • MolLogP: 浮点数 (float64)
  • MolMR: 浮点数 (float64)
  • HeavyAtomCount: 浮点数 (float64)
  • NumHAcceptors: 浮点数 (float64)
  • NumHDonors: 浮点数 (float64)
  • NumHeteroatoms: 浮点数 (float64)
  • NumRotatableBonds: 浮点数 (float64)
  • NumValenceElectrons: 浮点数 (float64)
  • NumAromaticRings: 浮点数 (float64)
  • NumSaturatedRings: 浮点数 (float64)
  • NumAliphaticRings: 浮点数 (float64)
  • RingCount: 浮点数 (float64)
  • TPSA: 浮点数 (float64)
  • LabuteASA: 浮点数 (float64)
  • BalabanJ: 浮点数 (float64)
  • BertzCT: 浮点数 (float64)
  • ClusterNo: 整数 (int64)
  • MolCount: 整数 (int64)
  • group: 字符串

引用

@article{ author = {Murat Cihan Sorkun, Abhishek Khetan & Süleyman Er}, title = {AqSolDB, a curated reference set of aqueous solubility and 2D descriptors for a diverse set of compounds}, journal = {Scientific Data}, year = {2019}, volume = {6}, number = {143}, month = {aug}, url = {https://www.nature.com/articles/s41597-019-0151-1}, publisher = {Springer Nature} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
AqSolDB数据集由Autonomous Energy Materials Discovery研究组精心构建,汇集了来自九个公开可用的水溶性数据集的9,982个独特化合物的溶解度数据。通过整合和标准化这些数据,确保了数据的高质量和一致性,为构建数据驱动模型提供了坚实的基础。
特点
AqSolDB数据集不仅规模庞大,涵盖了广泛的化学空间,还提供了丰富的2D描述符,如分子量、LogP值、分子表面积等,这些特征为化学信息学和药物发现领域的研究提供了宝贵的资源。此外,数据集的结构化设计使其易于集成到现有的机器学习框架中,从而加速了模型的开发和验证过程。
使用方法
使用AqSolDB数据集,首先通过Huggingface的datasets库加载数据,然后可以利用MolFlux包进行特征化处理和模型训练。具体步骤包括加载数据集、特征化、数据分割、模型训练和评估。通过这些步骤,研究人员可以快速构建和验证基于水溶性预测的机器学习模型,从而推动化学和药物发现领域的创新。
背景与挑战
背景概述
在化学信息学领域,水溶性数据的准确性和多样性对于药物发现、涂料和电池材料设计等应用至关重要。AqSolDB数据集由Autonomous Energy Materials Discovery (AMD) 研究组于2019年创建,汇集了来自九个公开水溶性数据集的9,982种独特化合物的数据。该数据集不仅为测量水溶性数据提供了宝贵的参考资源,还为构建数据驱动模型提供了更为通用和可推广的训练数据源。AqSolDB的发布填补了现有数据集在化学空间覆盖、测量方法和数据表示标准化方面的不足,极大地推动了水溶性预测模型的发展。
当前挑战
AqSolDB数据集在构建过程中面临多重挑战。首先,整合来自多个数据源的数据需要解决数据格式不一致和测量方法差异的问题。其次,确保数据的可靠性和准确性是关键,这涉及对数据进行严格的筛选和验证。此外,为数据集提供标准化的2D描述符,以便于模型训练和预测,也是一项复杂的工作。最后,如何有效地划分数据集以进行模型训练和测试,确保模型的泛化能力,是另一个重要的挑战。这些挑战共同构成了AqSolDB数据集在实际应用中的主要障碍。
常用场景
经典使用场景
在化学信息学领域,AqSolDB数据集的经典使用场景主要集中在构建和验证水溶性预测模型。通过整合来自九个不同公开数据集的9,982种独特化合物的溶解度数据,该数据集为研究人员提供了一个全面且高质量的基准,用于训练和测试各种机器学习算法。这些模型不仅能够预测新化合物的溶解度,还能为药物发现、材料科学等领域的研究提供关键支持。
解决学术问题
AqSolDB数据集解决了化学领域中长期存在的溶解度预测难题。通过提供一个经过严格筛选和标准化的数据集,它显著提升了数据驱动模型的准确性和可靠性。这不仅有助于减少实验成本和时间,还推动了基于物理和化学原理的模型与数据驱动模型之间的融合,从而在学术界和工业界都产生了深远的影响。
衍生相关工作
AqSolDB数据集的发布催生了大量相关研究工作,特别是在机器学习和化学信息学交叉领域。例如,许多研究团队利用该数据集开发了新的特征提取方法和模型优化技术,进一步提升了溶解度预测的准确性。此外,该数据集还激发了对数据集质量和标准化问题的深入探讨,推动了化学数据科学领域的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

FMA (Free Music Archive)

免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集

OpenDataLab 收录