five

gbyuvd/chemq3-molsim-sft-smiles

收藏
Hugging Face2025-10-23 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/gbyuvd/chemq3-molsim-sft-smiles
下载链接
链接失效反馈
官方服务:
资源简介:
ECFP4分子对数据集,包含具有统一目标范围内ECFP4 Dice相似度评分的分子对,使用FAISS进行高效相似度搜索。该数据集通过特定的预处理、指纹计算、索引构建和分子对采样步骤,生成一个高质量、化学多样性平衡、计算效率高且目标相似度分布均匀的分子对集合,适用于监督微调(SFT)和句子变换器训练,以学习有意义但非平凡的分子相似性。

A dataset of molecular pairs with ECFP4 Dice similarity scores uniformly sampled across a target range, using FAISS for efficient similarity search. This dataset is produced through specific preprocessing, fingerprinting, indexing, and pair sampling steps to generate a high-quality, balanced set of molecular pairs for similarity-based learning, targeting meaningful but non-trivial molecular similarities.
提供机构:
gbyuvd
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作