five

OpenMol/PubChemSFT

收藏
Hugging Face2024-04-07 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/OpenMol/PubChemSFT
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含SMILES分子描述的单轮对话,格式为JSON,包含SMILES字符串及其对应的描述。数据集分为训练集、验证集和测试集,分别包含264,391、33,072和32,987个样本。对话模板包括人类查询和GPT生成的分子描述。此外,还提供了14种查询模板,用于生成对话中的查询部分。

该数据集包含SMILES分子描述的单轮对话,格式为JSON,包含SMILES字符串及其对应的描述。数据集分为训练集、验证集和测试集,分别包含264,391、33,072和32,987个样本。对话模板包括人类查询和GPT生成的分子描述。此外,还提供了14种查询模板,用于生成对话中的查询部分。
提供机构:
OpenMol
原始信息汇总

数据集概述

数据集文件

  • 文件名: all_clean.json
    • 移除了与ChEBI-20测试集重叠的部分。

    • 移除了无描述的SMILES。

    • 数据格式: python { SMILES <str>: [ ["Please describe the molecule", DESCRIPTION], ..., ] }

    • 统计信息:

      • 最大令牌长度: 6113
      • 最小令牌长度: 20
      • 平均令牌长度: 191
      • 中位数令牌长度: 149
      • 总单轮对话数: 326,689
      • 总SMILES示例数: 293,302

数据集大小

  • 训练集: 264,391
  • 验证集: 33,072
  • 测试集: 32,987

对话模板

python conversation:{ [ "from": "human", "value": <QUERY>, # 随机从查询模板中抽样 ], [ "from": "gpt", "value": <TEXT>, # 关于给定分子的描述 ], ]

数据集条目内容

"graph": [ "edge_index":, # 数组形式 (int64) "edge_feat":, # 数组形式 (int64) "node_feat":, # 数组形式 (int64) "num_nodes":, # 整数 ], "conversation": # 如上所述

查询模板

python { <image> Could you give me a brief overview of this molecule?, <image> Could you provide a description of this molecule?, <image> Describe this molecule., <image> Please give me some details about this molecule., <image> Provide a brief overview of this molecule., <image> Provide a description of this molecule., <image> What can you tell me about this molecule?, Could you give me a brief overview of this molecule? <image>, Could you provide a description of this molecule? <image>, Describe this molecule. <image>, Please give me some details about this molecule. <image>, Provide a brief overview of this molecule. <image>, Provide a description of this molecule. <image>, What can you tell me about this molecule? <image> }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作