five

CalData|食材识别数据集|饮食管理数据集

收藏
arXiv2024-12-13 更新2024-12-17 收录
食材识别
饮食管理
下载链接:
https://github.com/KennyYao2001/16824-CaLORAify
下载链接
链接失效反馈
资源简介:
CalData是一个专门为食材识别和卡路里估算任务设计的数据集,由卡内基梅隆大学的研究团队创建。该数据集包含33万张图像-文本对,来源于Recipe1M+数据集并补充了详细的营养信息。数据集的创建过程结合了大规模食谱数据和营养指导,确保了视觉语言模型的稳健训练。CalData主要应用于个性化饮食管理领域,旨在通过图像识别技术简化卡路里估算流程,提升用户的饮食健康管理体验。
提供机构:
卡内基梅隆大学
创建时间:
2024-12-13
原始信息汇总

CaLoRAify: Calorie Estimation with Visual-Text Pairing and LoRA-Driven Visual Language Models

概述

CaLoRAify 是一个新颖的项目,旨在通过利用视觉-语言模型(VLMs)、微调技术和检索增强生成(RAG)方法来估计餐食的卡路里含量,从而应对肥胖问题。该系统充当一个虚拟营养师,根据餐食照片为用户提供卡路里分析和饮食建议。

特点

  • 食材识别:分析餐食图像以识别单个食材。
  • 卡路里估计:使用先进的模型如MiniGPT-4进行精确的卡路里计算。
  • 检索增强生成(RAG):通过科学的营养数据增强估计。
  • 交互式反馈:支持多轮对话,根据用户反馈重新计算结果。
  • 现实世界适应性:解决食物展示多样性和食材复杂性带来的挑战。

方法论

1. 数据来源

  • Recipe1M+ 数据集:用于食材识别的基础数据集。
  • USDA食品卡路里数据库:用于细粒度营养数据的参考。

自建数据集存储在 这里

2. 模型选择

  • 微调MiniGPT-4,使用LoRAQLoRA方法。

3. 损失函数

损失函数结合了交叉熵和均方误差(MSE):

$L = lambda_{CE}L_{CE} + lambda_{MSE}L_{MSE}$

调整权重 $lambda_{CE}$ 和 $lambda_{MSE}$ 以平衡任务。

4. 训练和评估

  • 多任务学习:同时训练食材分类和卡路里估计。
  • 评估指标
    • 精确度召回率用于食材预测。
    • **均方误差(MSE)**用于卡路里估计。

5. 推理

  • 应用提示工程以减少餐食识别中的歧义。
  • 实现交互式重新计算以支持动态用户交互。

安装

要求

  • 至少48 GB内存的NVIDIA GPU
  • 兼容CUDA的Python环境

设置

  1. 克隆仓库: bash git clone https://github.com/KennyYao2001/16824-CaLORAify.git cd 16824-CaLORAify

  2. 创建并激活环境: bash conda env create -f environment.yml conda activate minigptv

  3. 下载预训练的MiniGPT-4权重:

  4. 配置模型路径:

    • 更新 eval_configs/minigptv2_eval.yaml 文件中的路径以指向下载的权重。

运行演示

在本地启动卡路里估计演示: bash python demo_v2.py --cfg-path eval_configs/minigptv2_eval.yaml --gpu-id 0

AI搜集汇总
数据集介绍
main_image_url
构建方式
CalData数据集通过结合大规模食谱数据集Recipe1M+与详细的营养信息,构建了一个包含330K图像-文本对的专用数据集。该数据集的构建采用了层次化的组织方式,每个样本与最多五张代表性图像配对,并结合五组手动构建的指令集,形成图像-文本对。数据集被划分为训练集、验证集和测试集,确保了在视觉语言任务中的高效管理和训练。
特点
CalData数据集的主要特点在于其大规模的图像-文本对,涵盖了丰富的食谱和营养信息,适用于细粒度的食材识别和卡路里预测任务。数据集的多样性和详细性使其成为视觉语言模型在食品领域进行微调的理想选择。此外,数据集的层次化结构和平衡采样策略确保了训练和评估的稳健性。
使用方法
CalData数据集主要用于视觉语言模型的微调,特别是在食材识别和卡路里估算任务中。用户可以通过该数据集训练模型,使其能够从单一的食物图像中识别食材并估算卡路里。数据集的图像-文本对结构支持模型的多模态学习,使其能够在实际应用中提供准确的卡路里估算和食材分析。
背景与挑战
背景概述
随着肥胖问题在全球范围内日益严重,传统的卡路里估算工具往往依赖于特定的数据格式或复杂的流程,限制了其在实际应用中的实用性。为此,卡内基梅隆大学的研究人员Dongyu Yao、Keling Yao、Junhong Zhou和Yinghao Zhang等人提出了CalData数据集,该数据集包含330K图像-文本对,专门用于食材识别和卡路里估算。CalData数据集的构建基于大规模的Recipe1M+数据集,并结合了详细的营养信息,旨在为视觉语言模型(VLMs)的训练提供支持。通过该数据集,研究人员开发了CaLoRAify框架,该框架利用视觉-文本配对进行训练,能够在用户仅提供单一食物图像的情况下进行卡路里估算,显著提升了系统的实用性和灵活性。
当前挑战
CalData数据集的构建面临多重挑战。首先,传统的卡路里估算方法依赖于多步骤的流程,如食物分类、份量估算和卡路里计算,这些方法在实际应用中存在误差传播和硬件依赖的问题。其次,构建CalData数据集时,研究人员需要从Recipe1M+数据集中提取并整合详细的食材和营养信息,确保数据的准确性和多样性。此外,视觉语言模型在处理垂直领域的任务时,如食材识别和卡路里估算,需要克服模型在特定领域知识上的不足,确保其在实际应用中的准确性和可靠性。
常用场景
经典使用场景
CalData数据集的经典使用场景主要集中在食品成分识别和卡路里估算领域。该数据集通过结合大规模食谱数据集与详细的营养信息,为视觉语言模型(VLM)的训练提供了丰富的图像-文本对。在实际应用中,用户仅需提供一张食物的单目图像,系统便能通过视觉-文本对齐技术,自动识别食物成分并估算其卡路里含量,极大地简化了传统多步骤的卡路里估算流程。
实际应用
CalData数据集在实际应用中展现了广泛的前景,特别是在移动健康应用和智能饮食管理系统中。例如,用户可以通过手机摄像头拍摄食物图像,系统即刻返回该食物的成分和卡路里信息,帮助用户实时监控饮食摄入。此外,该数据集还可应用于餐饮行业,帮助餐厅或食品制造商快速估算菜品或产品的营养成分,从而优化菜单设计和产品开发,满足消费者的健康需求。
衍生相关工作
基于CalData数据集,研究者们开发了CaLoRAify框架,该框架通过结合低秩适应(LoRA)和检索增强生成(RAG)技术,显著提升了视觉语言模型在卡路里估算任务中的表现。此外,该数据集还激发了其他相关研究,如基于多模态输入的食谱生成和个性化饮食推荐系统。这些工作不仅扩展了CalData的应用范围,还推动了视觉语言模型在食品分析领域的进一步发展,为未来的智能饮食管理提供了技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

NCBI

美国国家生物技术信息中心(NCBI)是一个国际知名的生物信息学数据库和研究机构,提供广泛的生物医学数据资源和工具。其官方网站涵盖了基因组学、蛋白质组学、生物医学文献等多个领域的数据,为全球科研人员、临床医生和学生提供免费访问和分析生物信息的平台,推动生命科学和医学研究的发展。

www.ncbi.nlm.nih.gov 收录

海天瑞声-超大规模中文多领域高质量多轮对话语料库

这是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达。覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话这两种方式,兼顾分布的代表性、多样性和样本规模。

魔搭社区 收录

The MaizeGDB

The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。

www.maizegdb.org 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录