harshal3099/apex-food-rd-chatml

Name: harshal3099/apex-food-rd-chatml
Creator: harshal3099
Published: 2026-05-01 07:04:39
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/harshal3099/apex-food-rd-chatml

下载链接

链接失效反馈

官方服务：

资源简介：

Apex食品配方研发ChatML数据集是一个合成的监督微调数据集，专注于印度清洁标签功能性食品的配方研发。数据集包含5,500个ChatML示例，分为训练集4,950个、验证集275个和测试集275个。格式为包含system、user和assistant的messages列。数据集涵盖了多种能力分布，如成分功能、监管许可、保存系统设计、清洁标签替代、工艺工程、FSSAI和欧洲标准健康/营养声明、ICMR-NIN饮食差距分析、有机认证、发酵科学、保质期预测以及质地和感官设计。数据集基于印度和欧洲的监管/科学知识库生成，并引用了多个法规和标准。需要注意的是，这是一个合成的MVP训练数据集，主要用于教学响应结构、配方推理和引用行为，在用于商业合规决策前，应验证答案的准确性。

The Apex Food Formulation R&D ChatML Dataset is a synthetic supervised fine-tuning dataset focused on Indian clean-label functional foods for Apex Nutrition. It contains 5,500 ChatML examples, divided into 4,950 for training, 275 for validation, and 275 for testing. The format includes messages column with system, user, and assistant. The dataset covers various capability distributions such as Ingredient Functionality, Regulatory Permissibility, Preservation System Design, Clean-Label Substitution, Process Engineering, FSSAI & European Standards Health/Nutrition Claims, ICMR-NIN Dietary Gap Analysis, Organic Certification, Fermentation Science, Shelf-Life Prediction, and Texture & Sensory Design. The dataset is generated from a curated regulatory/scientific knowledge base and cites multiple regulations and standards. Important limitation: This is a synthetic MVP training dataset designed to teach response structure, formulation reasoning, and citation behavior. Before using the model for commercial compliance decisions, validate answers against current source PDFs and legal/regulatory counsel.

提供机构：

harshal3099

搜集汇总

数据集介绍

构建方式

本数据集名为apex-food-rd-chatml，专为Apex Nutrition的印度清洁标签功能性食品研发助手设计，是一个经过监督微调的合成数据集。其构建方式基于精心策划的监管与科学知识库，涵盖了FSS Act 2006、Codex Alimentarius、ICMR-NIN RDA/EAR 2020及NPOP/APEDA有机标准等权威规范。数据以ChatML格式组织，包含5500条示例，每条由system、user和assistant角色构成的messages列组成，并附有capability、company_context、source_type等元数据，确保对话结构清晰且可追溯。

特点

该数据集显著特色在于其多维度能力覆盖与监管溯源机制。它横跨原料功能性、法规许可性、防腐系统设计、清洁标签替代、工艺工程及有机认证等11类专业技能，分布均衡。尤为突出的是，每条数据均引用具体法规条文，如FSSAI标准或Codex指南，赋予合成数据事实可靠性。尽管为最小可行产品（MVP）阶段，但其专注于教导模型响应结构、配方推理及引用行为，为商业合规决策的初步训练提供了坚实基础。

使用方法

数据集推荐基于Qwen3-4B模型进行微调，因该模型架构经验证支持Qwen3ForCausalLM，且具备约4B参数的实用规模与宽松的Apache-2.0许可。使用时，用户可直接加载messages列，通过标准监督学习范式训练对话生成能力。数据集预设了train（4950条）、validation（275条）和test（275条）拆分，便于评估。需注意，当前版本为合成数据，用于教授模型格式与推理范式，在投入商业合规决策前，应针对最新FSSAI/Codex源文件进行验证并咨询法律顾问。

背景与挑战

背景概述

在食品科学与法规交叉领域，面向清洁标签功能性食品的研发数据资源长期匮乏，尤其针对印度特定监管框架的语料库更是稀缺。apex-food-rd-chatml数据集由Apex Nutrition团队于近期创建，旨在构建一个专注于印度清洁标签功能性食品配方研发的合成监督微调数据集，其核心研究问题在于如何通过人工智能助手精准理解并应用印度及国际食品法规（如FSSAI、Codex Alimentarius、ICMR-NIN等）进行合规性分析与配方设计。该数据集包含5,500条ChatML格式示例，覆盖配料功能性、法规许可性、清洁标签替代等12项核心能力，为食品科技领域的大语言模型微调提供了首个专门的法规与科学知识基础，有望推动智能食品研发助手在印度乃至全球食品行业的应用落地。

当前挑战

该数据集所解决的领域挑战在于食品配方研发中法规遵从与科学知识整合的复杂性：传统食品研发需手动查阅大量分散的印度及国际食品安全法规、营养标准与添加剂目录，而现有通用语言模型缺乏针对性地回答诸如某成分在清洁标签食品中的法规许可性、保存系统设计中保质期预测等专业问题的能力。在构建过程中，挑战集中于合成数据生成的可靠性保障：需从FSS Act 2006、Codex GSFA、ICMR-NIN膳食指南等十数种不同来源的法规与科学文献中提取知识，确保每一条训练示例的法规引用准确无歧义，同时要模拟真实用户提问场景生成多样化查询，避免数据偏倚，并设计系统化的能力标签体系以覆盖从配料替换到有机认证等广泛子领域。

常用场景

经典使用场景

在食品科学领域的研发与合规管理中，该数据集主要用于构建面向特定地区（如印度）的清洁标签功能性食品配方研发助手。其经典使用场景包括通过微调大型语言模型（如Qwen3-4B），使其掌握从原料功能性评估、法规许可性核查到保质期预测、感官与质构设计等多维度的专业知识。数据集以ChatML格式组织对话，涵盖5500条示例，覆盖十种核心能力，帮助模型学会结构化推理与引用权威法规（如FSSAI、Codex Alimentarius），从而生成符合监管要求且具备科学依据的食品配方建议。

解决学术问题

该数据集直面食品科学与法规交叉领域的两大核心学术难题：一是如何将分散且不断更新的监管标准（如FSS Act、Codex GSFA、ICMR-NIN膳食指南）系统地整合为可供机器学习模型学习的结构化知识；二是在清洁标签趋势下，如何通过数据驱动的方法替代传统经验试错，实现功能性成分的合规替换与保质期精准预测。其意义在于为食品配方研发提供了一个可复现且可验证的基准数据集，推动了合规性知识与生成式AI的融合，助力减少研发成本与合规风险，并为食品法规的数字化建模开辟了新路径。

衍生相关工作

该数据集衍生了一系列聚焦于食品领域的大模型微调与知识蒸馏工作。典型代表包括基于Qwen3-4B的LoRA微调研究，通过参数高效方法验证了小型模型在监管问答中的可靠性；此外，有工作利用其结构化的系统提示（system prompt）设计，探索了多轮对话中法规引用的一致性控制策略。另一些研究则将其作为合成数据范例，启发后续工作采用类似方法创建针对清真认证、欧盟有机法规或中国GB标准的数据集，推动了跨区域食品法规知识库的数字化映射与多语言适配模型的开发。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集