sagawa/ord-uniq-canonicalized
收藏Hugging Face2022-09-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sagawa/ord-uniq-canonicalized
下载链接
链接失效反馈官方服务:
资源简介:
我们从开放反应数据库(ORD)下载了数据集,并进行了预处理,包括移除重叠数据和使用RDKit进行规范化处理。我们还移除了无法被RDKit读取的SMILES数据。预处理后的数据被随机划分为训练集、验证集和测试集,比例为8:1:1。
提供机构:
sagawa
原始信息汇总
数据集概述
基本信息
- 名称: canonicalized ORD
- 语言: 单语种(monolingual)
- 许可证: Apache-2.0
- 大小: 1M<n<10M
- 来源: 原始数据(original)
数据处理
- 数据来源于open-reaction-database(ORD)。
- 预处理包括移除重叠数据并使用RDKit进行规范化处理。
- 移除了无法被RDKit解析的SMILES数据。
数据分割
- 数据被随机分割为训练集、验证集和测试集,比例为8:1:1。
任务与标签
- 任务类别:
- 文本到文本生成(text2text-generation)
- 翻译(translation)
- 标签:
- 化学反应(reaction)
- 化学(chemical)



