osunlp/SMolInstruct
收藏Hugging Face2024-09-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/osunlp/SMolInstruct
下载链接
链接失效反馈官方服务:
资源简介:
SMolInstruct是一个大规模的、全面的、高质量的化学领域指令调优数据集,专注于小分子。它包含14个精心选择的任务和超过300万个样本,提供了SMILES和SELFIES两种版本。数据集经过严格的质量控制,确保样本的化学有效性和准确性,并通过自然和多样化的模板创建指令,以促进模型学习和推理过程中的答案提取。
SMolInstruct is a large-scale, comprehensive, and high-quality instruction tuning dataset focused on small molecules in the field of chemistry. It includes 14 carefully selected tasks and over 3 million samples, providing both SMILES and SELFIES formats. The dataset has undergone rigorous quality control to ensure the chemical validity and accuracy of all samples, and instructions are created with natural and diverse templates to facilitate answer extraction during model training and inference.
提供机构:
osunlp
原始信息汇总
数据集概述
基本信息
- 名称: SMolInstruct
- 语言: 英语
- 许可证: CC BY 4.0
- 标签: 化学, 分子, 小分子
数据集描述
- 性质: 大规模、全面、高质量的指令调优数据集
- 领域: 化学
- 内容: 围绕小分子,包含14个精心选择的任务和超过300万样本
- 版本: 提供SMILES和SELFIES版本
版本历史
- v1.2.0: 添加了一个小型测试子集,每个任务最多200个样本。可通过设置
use_test_subset=True使用。新增use_first参数,用于加载每个任务的前若干样本。 - v1.1.1: 修复了逆合成任务中的双标签问题。
- v1.1.0: 删除了少量无效分子样本,并添加了SELFIES版本。
- v1.0.0: 首次上传。
数据集结构
- 任务: 包括正向合成、逆合成、分子描述、分子生成等多个任务。
- 数据分割: 样本被细分为训练集、验证集和测试集,以避免跨任务的数据泄露。
使用方法
- 加载数据集: 使用
load_dataset(osunlp/SMolInstruct)加载数据集,可选参数包括use_selfies、tasks、use_test_subset和use_first。
数据构建
- 构建流程: 包括数据收集、质量控制、数据分割和指令构建四个步骤。
- 质量控制: 严格筛选,移除化学上无效的SMILES和错误信息,以及重复样本。
- 指令构建: 创建自然且多样的模板,使用特殊标签封装相应段落,以促进模型学习和推理时的答案提取。
许可证与使用准则
- 许可证: 数据集受CC BY 4.0许可证保护。
- 使用准则: 强烈建议用户在研究中保持公平、透明和负责任的态度,禁止任何可能对社会造成伤害的使用。
引用信息
-
引用格式:
@article{yu2024llasmol, title={LlaSMol: Advancing Large Language Models for Chemistry with a Large-Scale, Comprehensive, High-Quality Instruction Tuning Dataset}, author={Botao Yu and Frazier N. Baker and Ziqi Chen and Xia Ning and Huan Sun}, journal={arXiv preprint arXiv:2402.09391}, year={2024} }
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



