five

Lipinski Drug Set (max_seq = 113, vocab=30)

收藏
DataCite Commons2021-07-30 更新2024-08-18 收录
下载链接:
https://figshare.com/articles/dataset/Lipinski_Drug_Set_max_seq_113_vocab_30_/15079077/2
下载链接
链接失效反馈
官方服务:
资源简介:
Lipinski filtered, no charge, no radical, atom list limited (Molecules can only have 'C H O N S P N F Cl Br I' atoms.), and semantically filtered (SELFIES cannot have '+' or '-' in token), onehot and labeled with stoi/itos respectively pickle dictionary.<br>

本数据集经Lipinski规则筛选,无电荷、无自由基,原子类型受限(分子仅可包含C、H、O、N、S、P、F、Cl、Br、I原子),同时完成语义筛选(SELFIES的Token中不得包含'+'或'-'符号);数据已完成独热编码,并分别通过stoi(string-to-index,字符转索引)与itos(index-to-string,索引转字符)进行标记,最终存储为pickle序列化字典。
提供机构:
figshare
创建时间:
2021-07-30
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作