CalData|食材识别数据集|饮食管理数据集
收藏CaLoRAify: Calorie Estimation with Visual-Text Pairing and LoRA-Driven Visual Language Models
概述
CaLoRAify 是一个新颖的项目,旨在通过利用视觉-语言模型(VLMs)、微调技术和检索增强生成(RAG)方法来估计餐食的卡路里含量,从而应对肥胖问题。该系统充当一个虚拟营养师,根据餐食照片为用户提供卡路里分析和饮食建议。
特点
- 食材识别:分析餐食图像以识别单个食材。
- 卡路里估计:使用先进的模型如MiniGPT-4进行精确的卡路里计算。
- 检索增强生成(RAG):通过科学的营养数据增强估计。
- 交互式反馈:支持多轮对话,根据用户反馈重新计算结果。
- 现实世界适应性:解决食物展示多样性和食材复杂性带来的挑战。
方法论
1. 数据来源
- Recipe1M+ 数据集:用于食材识别的基础数据集。
- USDA食品卡路里数据库:用于细粒度营养数据的参考。
自建数据集存储在 这里。
2. 模型选择
- 微调MiniGPT-4,使用LoRA和QLoRA方法。
3. 损失函数
损失函数结合了交叉熵和均方误差(MSE):
$L = lambda_{CE}L_{CE} + lambda_{MSE}L_{MSE}$
调整权重 $lambda_{CE}$ 和 $lambda_{MSE}$ 以平衡任务。
4. 训练和评估
- 多任务学习:同时训练食材分类和卡路里估计。
- 评估指标:
- 精确度和召回率用于食材预测。
- **均方误差(MSE)**用于卡路里估计。
5. 推理
- 应用提示工程以减少餐食识别中的歧义。
- 实现交互式重新计算以支持动态用户交互。
安装
要求
- 至少48 GB内存的NVIDIA GPU
- 兼容CUDA的Python环境
设置
-
克隆仓库: bash git clone https://github.com/KennyYao2001/16824-CaLORAify.git cd 16824-CaLORAify
-
创建并激活环境: bash conda env create -f environment.yml conda activate minigptv
-
下载预训练的MiniGPT-4权重:
-
配置模型路径:
- 更新
eval_configs/minigptv2_eval.yaml
文件中的路径以指向下载的权重。
- 更新
运行演示
在本地启动卡路里估计演示: bash python demo_v2.py --cfg-path eval_configs/minigptv2_eval.yaml --gpu-id 0

MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
CMAB
CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。
arXiv 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录