FartLabs/FartDB
收藏Hugging Face2024-12-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/FartLabs/FartDB
下载链接
链接失效反馈官方服务:
资源简介:
FartDB是一个包含15,032个分子及其味道(甜、苦、鲜、酸、未定义)的复合数据集,主要来源于五个数据源:FlavorDB、PlantMolecularTasteDB、ChemTastesDB、Tas2R Agonists DB和Scifinder。数据集通过RDKit对SMILES进行规范化处理,并去除了重复数据。此外,数据集还包含了从PubChem获取的额外描述符。数据集主要用于训练机器学习模型,特别是基于SMILES的Transformer模型如ChemBERTa。
FartDB是一个包含15,032个分子及其味道(甜、苦、鲜、酸、未定义)的复合数据集,主要来源于五个数据源:FlavorDB、PlantMolecularTasteDB、ChemTastesDB、Tas2R Agonists DB和Scifinder。数据集通过RDKit对SMILES进行规范化处理,并去除了重复数据。此外,数据集还包含了从PubChem获取的额外描述符。数据集主要用于训练机器学习模型,特别是基于SMILES的Transformer模型如ChemBERTa。
提供机构:
FartLabs
原始信息汇总
数据集概述
数据集名称: FartDB
数据集大小: 10K<n<100K
任务类别: 文本分类
数据集特征:
- Canonicalized SMILES: 字符串类型
- Canonicalized Flavor: 字符串类型
- Original Labels: 字符串类型
- Source: 字符串类型
数据集分割:
- 训练集: 13634个样本,总大小1237660字节
- 测试集: 2922个样本,总大小263642字节
- 验证集: 2922个样本,总大小266452字节
下载大小: 568637字节
数据集总大小: 1767754字节
标签: 化学
数据集描述
FartDB是一个包含19,478个分子及其味道(甜、苦、鲜、酸、未定义)的复合数据集。该数据集从五个数据源(FlavorDB、PlantMolecularTasteDB、ChemTastesDB、Tas2R Agonists DB和Scifinder)中精选而来。每个标准化的SMILES对应五个味道类别之一。数据集还包含了来自PubChem的其他描述符,并移除了重复的数据点。
数据集来源
- FlavorDB: Neelansh Garg等人,2017年
- PlantMolecularTasteDB: Gradinaru Teodora-Cristiana等人,2022年
- ChemTastesDB: Rojas, C.等人,2021年
- Tas2R Agonists DB: Sebastian Bayer等人,2021年
- Scifinder: 访问于2024年5月5日
- Umami Compounds: B. Suess等人,2015年
数据集结构
数据集的前两列包含“Canonicalized SMILES”和“Canonicalized Flavor”。"Original Labels"提供了数据透明度,而"Source"指明了数据点来自哪个数据库。此外,数据集还包含了通过PubChem API获得的描述符。
搜集汇总
数据集介绍

构建方式
在计算化学与食品风味科学交叉领域,FartDB数据集通过系统整合多个权威风味分子数据库构建而成。其构建过程始于从FlavorDB、PlantMolecularTasteDB等五个公开数据源中提取分子结构与风味标签信息。核心步骤包括利用RDKit工具对所有SMILES字符串进行规范化处理,确保化学表示的一致性;随后,将原始数据中多样化的风味描述映射至甜、苦、鲜、酸及未定义这五个标准化类别。通过基于规范化SMILES和风味类别的去重操作,并辅以PubChem API补充分子描述符,最终形成了一个包含15,031个数据点的精炼集合,为风味预测研究提供了高质量基准。
特点
该数据集在化学信息学领域展现出鲜明的特色,其核心在于提供了大规模、标准化的分子风味对应关系。数据集囊括了15,031个分子实例,每个实例均包含规范化的SMILES字符串及其对应的五种基本味觉类别之一,结构清晰且类别平衡。尤为突出的是,它整合了来自多个独立研究的风味标注,并经过人工校验与标准化映射,有效提升了数据的可靠性与一致性。此外,数据集还丰富了PubChem分子描述符,为多维度分子表征与机器学习模型训练提供了坚实基础,成为连接化学结构与感官属性研究的关键桥梁。
使用方法
该数据集主要服务于化学语言模型与机器学习算法的训练与评估,特别是在分子属性预测任务中具有直接应用价值。研究人员可直接加载数据集中预划分的训练、验证与测试子集,用于微调如ChemBERTa等基于SMILES的预训练Transformer模型,以学习从分子结构到风味类别的复杂映射关系。使用前,建议进行简单的数据清洗,以剔除极少数可能无效的SMILES字符串。模型开发完成后,可利用该数据集评估其对于任意输入SMILES的风味分类性能,推动计算味觉感知领域的算法进步与应用探索。
背景与挑战
背景概述
在计算化学与食品风味科学交叉领域,分子风味预测作为一项新兴研究方向,旨在通过化合物的结构信息推断其感官属性。FartDB数据集由Fart Labs于2024年构建,整合了FlavorDB、PlantMolecularTasteDB等五个权威风味分子数据库,涵盖了15,031个分子及其对应的甜、苦、鲜、酸及未定义五类风味标签。该数据集通过标准化SMILES表示与风味分类,为基于Transformer架构的化学语言模型提供了高质量的监督学习资源,推动了分子信息学在风味感知机理探索与新型食品添加剂设计中的应用。
当前挑战
该数据集致力于解决分子风味分类这一复杂任务的挑战,其核心在于建立分子结构表征与人类主观味觉感知之间的可靠映射关系,这涉及化学多样性、受体相互作用及感官评价的主观性等多重因素。在构建过程中,研究人员面临数据异构性整合的难题,包括不同源数据中风味标签的非标准化描述需统一映射至五类规范类别,以及SMILES序列的规范化处理。此外,数据去重、无效分子剔除与PubChem描述符的补充亦增加了数据清洗的复杂度,而鲜味与酸味化合物样本的相对稀缺可能影响模型对少数类别的泛化能力。
常用场景
经典使用场景
在计算化学与食品风味科学交叉领域,FartDB数据集为分子风味预测提供了关键数据支撑。该数据集整合了超过1.5万个分子的标准化SMILES表示及其对应的甜、苦、鲜、酸或未定义的风味标签,构建了一个结构化的风味分子知识库。其经典应用场景在于训练基于SMILES序列的化学语言模型,如ChemBERTa,通过监督学习实现从分子结构到风味属性的端到端预测,为风味分子的高通量虚拟筛选奠定基础。
实际应用
在食品工业与感官科学领域,FartDB支撑的风味预测模型可直接应用于新产品研发。例如,在开发低糖食品时,模型可快速筛选具有甜味特征的天然分子作为代糖候选;在风味增强剂设计中,能高效识别潜在的鲜味分子。这种数据驱动的方法显著缩短了研发周期,降低了实验成本,并为个性化营养与健康食品的创新提供了分子层面的设计工具。
衍生相关工作
基于FartDB衍生的经典工作首推其伴随论文提出的化学语言模型。该研究通过微调ChemBERTa,建立了首个能够从任意SMILES输入预测风味的Transformer模型,验证了将自然语言处理技术迁移至化学信息学的可行性。这项工作激发了后续一系列探索,包括结合多模态分子表征改进预测精度,以及将风味预测框架扩展至其他感官属性(如气味)的跨任务学习研究。
以上内容由遇见数据集搜集并总结生成



