CalData

arXiv2024-12-13 更新2024-12-17 收录

下载链接：

https://github.com/KennyYao2001/16824-CaLORAify

下载链接

链接失效反馈

资源简介：

CalData是一个专门为食材识别和卡路里估算任务设计的数据集，由卡内基梅隆大学的研究团队创建。该数据集包含33万张图像-文本对，来源于Recipe1M+数据集并补充了详细的营养信息。数据集的创建过程结合了大规模食谱数据和营养指导，确保了视觉语言模型的稳健训练。CalData主要应用于个性化饮食管理领域，旨在通过图像识别技术简化卡路里估算流程，提升用户的饮食健康管理体验。

CalData is a dataset specifically curated for food ingredient recognition and calorie estimation tasks, created by the research team at Carnegie Mellon University. This dataset contains 330,000 image-text pairs, which are sourced from the Recipe1M+ dataset and enriched with comprehensive nutritional information. The construction of this dataset integrates large-scale recipe data and nutritional guidelines, ensuring robust training for vision-language models. CalData is primarily applied in the field of personalized dietary management, aiming to simplify the calorie estimation process via image recognition technology and enhance users' dietary health management experience.

提供机构：

卡内基梅隆大学

创建时间：

2024-12-13

原始信息汇总

CaLoRAify: Calorie Estimation with Visual-Text Pairing and LoRA-Driven Visual Language Models

概述

CaLoRAify 是一个新颖的项目，旨在通过利用视觉-语言模型（VLMs）、微调技术和检索增强生成（RAG）方法来估计餐食的卡路里含量，从而应对肥胖问题。该系统充当一个虚拟营养师，根据餐食照片为用户提供卡路里分析和饮食建议。

特点

食材识别：分析餐食图像以识别单个食材。
卡路里估计：使用先进的模型如MiniGPT-4进行精确的卡路里计算。
检索增强生成（RAG）：通过科学的营养数据增强估计。
交互式反馈：支持多轮对话，根据用户反馈重新计算结果。
现实世界适应性：解决食物展示多样性和食材复杂性带来的挑战。

方法论

1. 数据来源

Recipe1M+ 数据集：用于食材识别的基础数据集。
USDA食品卡路里数据库：用于细粒度营养数据的参考。

自建数据集存储在这里。

2. 模型选择

微调MiniGPT-4，使用LoRA和QLoRA方法。

3. 损失函数

损失函数结合了交叉熵和均方误差（MSE）：

$L = lambda_{CE}L_{CE} + lambda_{MSE}L_{MSE}$

调整权重 $lambda_{CE}$ 和 $lambda_{MSE}$ 以平衡任务。

4. 训练和评估

多任务学习：同时训练食材分类和卡路里估计。
评估指标：
- 精确度和召回率用于食材预测。
- **均方误差（MSE）**用于卡路里估计。

5. 推理

应用提示工程以减少餐食识别中的歧义。
实现交互式重新计算以支持动态用户交互。

安装

要求

至少48 GB内存的NVIDIA GPU
兼容CUDA的Python环境

设置

克隆仓库： bash git clone https://github.com/KennyYao2001/16824-CaLORAify.git cd 16824-CaLORAify
创建并激活环境： bash conda env create -f environment.yml conda activate minigptv
下载预训练的MiniGPT-4权重：
- MiniGPT-4 Checkpoints
配置模型路径：
- 更新 eval_configs/minigptv2_eval.yaml 文件中的路径以指向下载的权重。

运行演示

在本地启动卡路里估计演示： bash python demo_v2.py --cfg-path eval_configs/minigptv2_eval.yaml --gpu-id 0

AI搜集汇总

数据集介绍

构建方式

CalData数据集通过结合大规模食谱数据集Recipe1M+与详细的营养信息，构建了一个包含330K图像-文本对的专用数据集。该数据集的构建采用了层次化的组织方式，每个样本与最多五张代表性图像配对，并结合五组手动构建的指令集，形成图像-文本对。数据集被划分为训练集、验证集和测试集，确保了在视觉语言任务中的高效管理和训练。

特点

CalData数据集的主要特点在于其大规模的图像-文本对，涵盖了丰富的食谱和营养信息，适用于细粒度的食材识别和卡路里预测任务。数据集的多样性和详细性使其成为视觉语言模型在食品领域进行微调的理想选择。此外，数据集的层次化结构和平衡采样策略确保了训练和评估的稳健性。

使用方法

CalData数据集主要用于视觉语言模型的微调，特别是在食材识别和卡路里估算任务中。用户可以通过该数据集训练模型，使其能够从单一的食物图像中识别食材并估算卡路里。数据集的图像-文本对结构支持模型的多模态学习，使其能够在实际应用中提供准确的卡路里估算和食材分析。

背景与挑战

背景概述

随着肥胖问题在全球范围内日益严重，传统的卡路里估算工具往往依赖于特定的数据格式或复杂的流程，限制了其在实际应用中的实用性。为此，卡内基梅隆大学的研究人员Dongyu Yao、Keling Yao、Junhong Zhou和Yinghao Zhang等人提出了CalData数据集，该数据集包含330K图像-文本对，专门用于食材识别和卡路里估算。CalData数据集的构建基于大规模的Recipe1M+数据集，并结合了详细的营养信息，旨在为视觉语言模型（VLMs）的训练提供支持。通过该数据集，研究人员开发了CaLoRAify框架，该框架利用视觉-文本配对进行训练，能够在用户仅提供单一食物图像的情况下进行卡路里估算，显著提升了系统的实用性和灵活性。

当前挑战

CalData数据集的构建面临多重挑战。首先，传统的卡路里估算方法依赖于多步骤的流程，如食物分类、份量估算和卡路里计算，这些方法在实际应用中存在误差传播和硬件依赖的问题。其次，构建CalData数据集时，研究人员需要从Recipe1M+数据集中提取并整合详细的食材和营养信息，确保数据的准确性和多样性。此外，视觉语言模型在处理垂直领域的任务时，如食材识别和卡路里估算，需要克服模型在特定领域知识上的不足，确保其在实际应用中的准确性和可靠性。

常用场景

经典使用场景

CalData数据集的经典使用场景主要集中在食品成分识别和卡路里估算领域。该数据集通过结合大规模食谱数据集与详细的营养信息，为视觉语言模型（VLM）的训练提供了丰富的图像-文本对。在实际应用中，用户仅需提供一张食物的单目图像，系统便能通过视觉-文本对齐技术，自动识别食物成分并估算其卡路里含量，极大地简化了传统多步骤的卡路里估算流程。

实际应用

CalData数据集在实际应用中展现了广泛的前景，特别是在移动健康应用和智能饮食管理系统中。例如，用户可以通过手机摄像头拍摄食物图像，系统即刻返回该食物的成分和卡路里信息，帮助用户实时监控饮食摄入。此外，该数据集还可应用于餐饮行业，帮助餐厅或食品制造商快速估算菜品或产品的营养成分，从而优化菜单设计和产品开发，满足消费者的健康需求。

衍生相关工作

基于CalData数据集，研究者们开发了CaLoRAify框架，该框架通过结合低秩适应（LoRA）和检索增强生成（RAG）技术，显著提升了视觉语言模型在卡路里估算任务中的表现。此外，该数据集还激发了其他相关研究，如基于多模态输入的食谱生成和个性化饮食推荐系统。这些工作不仅扩展了CalData的应用范围，还推动了视觉语言模型在食品分析领域的进一步发展，为未来的智能饮食管理提供了技术支持。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集