five

CalData|食材识别数据集|饮食管理数据集

收藏
arXiv2024-12-13 更新2024-12-17 收录
食材识别
饮食管理
下载链接:
https://github.com/KennyYao2001/16824-CaLORAify
下载链接
链接失效反馈
资源简介:
CalData是一个专门为食材识别和卡路里估算任务设计的数据集,由卡内基梅隆大学的研究团队创建。该数据集包含33万张图像-文本对,来源于Recipe1M+数据集并补充了详细的营养信息。数据集的创建过程结合了大规模食谱数据和营养指导,确保了视觉语言模型的稳健训练。CalData主要应用于个性化饮食管理领域,旨在通过图像识别技术简化卡路里估算流程,提升用户的饮食健康管理体验。
提供机构:
卡内基梅隆大学
创建时间:
2024-12-13
原始信息汇总

CaLoRAify: Calorie Estimation with Visual-Text Pairing and LoRA-Driven Visual Language Models

概述

CaLoRAify 是一个新颖的项目,旨在通过利用视觉-语言模型(VLMs)、微调技术和检索增强生成(RAG)方法来估计餐食的卡路里含量,从而应对肥胖问题。该系统充当一个虚拟营养师,根据餐食照片为用户提供卡路里分析和饮食建议。

特点

  • 食材识别:分析餐食图像以识别单个食材。
  • 卡路里估计:使用先进的模型如MiniGPT-4进行精确的卡路里计算。
  • 检索增强生成(RAG):通过科学的营养数据增强估计。
  • 交互式反馈:支持多轮对话,根据用户反馈重新计算结果。
  • 现实世界适应性:解决食物展示多样性和食材复杂性带来的挑战。

方法论

1. 数据来源

  • Recipe1M+ 数据集:用于食材识别的基础数据集。
  • USDA食品卡路里数据库:用于细粒度营养数据的参考。

自建数据集存储在 这里

2. 模型选择

  • 微调MiniGPT-4,使用LoRAQLoRA方法。

3. 损失函数

损失函数结合了交叉熵和均方误差(MSE):

$L = lambda_{CE}L_{CE} + lambda_{MSE}L_{MSE}$

调整权重 $lambda_{CE}$ 和 $lambda_{MSE}$ 以平衡任务。

4. 训练和评估

  • 多任务学习:同时训练食材分类和卡路里估计。
  • 评估指标
    • 精确度召回率用于食材预测。
    • **均方误差(MSE)**用于卡路里估计。

5. 推理

  • 应用提示工程以减少餐食识别中的歧义。
  • 实现交互式重新计算以支持动态用户交互。

安装

要求

  • 至少48 GB内存的NVIDIA GPU
  • 兼容CUDA的Python环境

设置

  1. 克隆仓库: bash git clone https://github.com/KennyYao2001/16824-CaLORAify.git cd 16824-CaLORAify

  2. 创建并激活环境: bash conda env create -f environment.yml conda activate minigptv

  3. 下载预训练的MiniGPT-4权重:

  4. 配置模型路径:

    • 更新 eval_configs/minigptv2_eval.yaml 文件中的路径以指向下载的权重。

运行演示

在本地启动卡路里估计演示: bash python demo_v2.py --cfg-path eval_configs/minigptv2_eval.yaml --gpu-id 0

AI搜集汇总
数据集介绍
main_image_url
构建方式
CalData数据集通过结合大规模食谱数据集Recipe1M+与详细的营养信息,构建了一个包含330K图像-文本对的专用数据集。该数据集的构建采用了层次化的组织方式,每个样本与最多五张代表性图像配对,并结合五组手动构建的指令集,形成图像-文本对。数据集被划分为训练集、验证集和测试集,确保了在视觉语言任务中的高效管理和训练。
特点
CalData数据集的主要特点在于其大规模的图像-文本对,涵盖了丰富的食谱和营养信息,适用于细粒度的食材识别和卡路里预测任务。数据集的多样性和详细性使其成为视觉语言模型在食品领域进行微调的理想选择。此外,数据集的层次化结构和平衡采样策略确保了训练和评估的稳健性。
使用方法
CalData数据集主要用于视觉语言模型的微调,特别是在食材识别和卡路里估算任务中。用户可以通过该数据集训练模型,使其能够从单一的食物图像中识别食材并估算卡路里。数据集的图像-文本对结构支持模型的多模态学习,使其能够在实际应用中提供准确的卡路里估算和食材分析。
背景与挑战
背景概述
随着肥胖问题在全球范围内日益严重,传统的卡路里估算工具往往依赖于特定的数据格式或复杂的流程,限制了其在实际应用中的实用性。为此,卡内基梅隆大学的研究人员Dongyu Yao、Keling Yao、Junhong Zhou和Yinghao Zhang等人提出了CalData数据集,该数据集包含330K图像-文本对,专门用于食材识别和卡路里估算。CalData数据集的构建基于大规模的Recipe1M+数据集,并结合了详细的营养信息,旨在为视觉语言模型(VLMs)的训练提供支持。通过该数据集,研究人员开发了CaLoRAify框架,该框架利用视觉-文本配对进行训练,能够在用户仅提供单一食物图像的情况下进行卡路里估算,显著提升了系统的实用性和灵活性。
当前挑战
CalData数据集的构建面临多重挑战。首先,传统的卡路里估算方法依赖于多步骤的流程,如食物分类、份量估算和卡路里计算,这些方法在实际应用中存在误差传播和硬件依赖的问题。其次,构建CalData数据集时,研究人员需要从Recipe1M+数据集中提取并整合详细的食材和营养信息,确保数据的准确性和多样性。此外,视觉语言模型在处理垂直领域的任务时,如食材识别和卡路里估算,需要克服模型在特定领域知识上的不足,确保其在实际应用中的准确性和可靠性。
常用场景
经典使用场景
CalData数据集的经典使用场景主要集中在食品成分识别和卡路里估算领域。该数据集通过结合大规模食谱数据集与详细的营养信息,为视觉语言模型(VLM)的训练提供了丰富的图像-文本对。在实际应用中,用户仅需提供一张食物的单目图像,系统便能通过视觉-文本对齐技术,自动识别食物成分并估算其卡路里含量,极大地简化了传统多步骤的卡路里估算流程。
实际应用
CalData数据集在实际应用中展现了广泛的前景,特别是在移动健康应用和智能饮食管理系统中。例如,用户可以通过手机摄像头拍摄食物图像,系统即刻返回该食物的成分和卡路里信息,帮助用户实时监控饮食摄入。此外,该数据集还可应用于餐饮行业,帮助餐厅或食品制造商快速估算菜品或产品的营养成分,从而优化菜单设计和产品开发,满足消费者的健康需求。
衍生相关工作
基于CalData数据集,研究者们开发了CaLoRAify框架,该框架通过结合低秩适应(LoRA)和检索增强生成(RAG)技术,显著提升了视觉语言模型在卡路里估算任务中的表现。此外,该数据集还激发了其他相关研究,如基于多模态输入的食谱生成和个性化饮食推荐系统。这些工作不仅扩展了CalData的应用范围,还推动了视觉语言模型在食品分析领域的进一步发展,为未来的智能饮食管理提供了技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录