five

Co-crystals

收藏
Hugging Face2025-05-18 更新2025-05-19 收录
下载链接:
https://huggingface.co/datasets/ai-chem/Co-crystals
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了文献的详细信息,包括文献的PDF链接、数字对象标识符(DOI)、附加信息、作者、标题、期刊、年份、页码、访问次数等。此外,还包含了药物、共晶体、共形态体的SMILES表示和稳定性变化等信息。
创建时间:
2025-05-12
搜集汇总
数据集介绍
main_image_url
构建方式
在药物晶体工程领域,Co-crystals数据集通过系统收集科学文献中的共晶结构信息构建而成。该过程涉及从权威期刊论文中提取结构化数据,包括药物分子与共形成剂的名称、化学计量比、SMILES表示以及光稳定性变化等关键参数。每一条记录均标注了原始文献来源与页码,确保了数据的可追溯性。这种基于文献挖掘的构建方式,为研究共晶的物理化学性质提供了可靠的数据基础。
特点
该数据集涵盖了70个共晶样本的多元特征,其独特之处在于整合了晶体组成与性质的多维度描述。除了包含药物和共形成剂的化学结构信息(SMILES序列),还记录了共晶比例、光稳定性变化等实验参数。所有字段均标注了数据来源类型与文献定位信息,形成了完整的元数据体系。这种多层次的数据结构为分析共晶形成规律与性质关联提供了丰富的研究维度。
使用方法
研究人员可通过HuggingFace平台直接访问该数据集,利用其标准化格式进行药物共晶的机器学习研究。数据集支持对晶体组成、化学结构和物理性质的联合分析,适用于预测共晶形成概率或优化晶体设计策略。用户可基于SMILES序列开展分子表征研究,或结合光稳定性数据探索结构与性能的关联规律,为药物晶体工程提供数据驱动的研究范式。
背景与挑战
背景概述
共晶数据集作为药物晶体工程领域的重要资源,由AI-Chem研究团队于近年构建,聚焦于药物共晶体的系统化表征。该数据集整合了科学文献中70个共晶样本的多元信息,涵盖分子结构、配比关系和光稳定性等关键参数,旨在通过机器学习方法预测药物共晶的形成规律与理化性质,为药物剂型设计与生物利用度优化提供数据支撑。其结构化特征如SMILES编码与DOI溯源机制,显著推动了计算化学与药物研发的交叉融合。
当前挑战
在药物共晶研究领域,该数据集需应对多组分晶体构效关系建模的复杂性,例如从非结构化文献中提取配比与稳定性参数的语义歧义问题。数据构建过程中面临原始文献异构性带来的整合挑战,包括期刊格式差异导致的关键信息定位困难,以及光稳定性等动态属性在文本中的隐式表达。此外,SMILES序列与晶体名称的跨源验证需解决命名规范不一致与数据稀疏性制约。
常用场景
经典使用场景
在药物晶体工程领域,Co-crystals数据集为共晶材料研究提供了系统化的实验数据支撑。该数据集通过整合70个共晶样本的完整特征信息,包括药物分子与共形成剂的化学结构、配比关系和稳定性参数,成为预测共晶形成能力的基准测试平台。研究人员可基于SMILES编码与晶体特性间的关联规律,构建机器学习模型来筛选潜在的共晶组合,显著提升了新材料发现的效率。
解决学术问题
该数据集有效解决了药物共晶研究中的数据碎片化难题,为理解分子间相互作用机制提供了标准化验证平台。通过系统收录光稳定性变化等关键参数,研究人员能够深入探究共晶结构对药物理化性质的影响规律,填补了传统实验方法在高通量筛选方面的空白。这种结构化数据组织形式极大促进了计算化学与实验科学的交叉融合,推动了晶体工程领域的定量化研究进程。
衍生相关工作
该数据集催生了多项创新性研究,包括基于图神经网络的共晶形成预测模型和多目标优化的晶体设计算法。研究人员利用其丰富的分子描述符开发了自动化共晶筛选流程,相关成果已延伸至金属有机框架材料设计领域。这些衍生工作不仅完善了计算晶体学的理论框架,还推动了ChemX等开源工具生态的发展,形成跨学科研究的良性循环。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作