FoodSense
收藏arXiv2026-04-16 更新2026-04-18 收录
下载链接:
https://i-sababishraq.github.io/foodsense-vl/
下载链接
链接失效反馈官方服务:
资源简介:
FoodSense是由中佛罗里达大学团队构建的多感官食品数据集,包含2,987张食物图像及其对应的66,842条人类标注。该数据集通过Yelp开放数据集筛选获得,每张图像由约21名参与者从味觉、嗅觉、质地和声音四个维度进行1-5级评分,并辅以文字描述。研究团队采用配额抽样方法,通过在线调查平台收集了8,382名参与者的感官预期数据,并设计了两阶段标注扩展流程将简短评分转化为基于图像的推理轨迹。该数据集主要应用于跨模态感官预测研究,旨在解决数字食品交互场景中通过视觉线索预测多感官体验的挑战,可支持食品推荐系统和特殊饮食需求等应用场景。
FoodSense is a multi-sensory food dataset developed by a research team at the University of Central Florida. It comprises 2,987 food images and their corresponding 66,842 human annotations. This dataset was curated from the Yelp Open Dataset. For each image, roughly 21 participants provided ratings on a 1-5 scale across four dimensions: taste, olfaction, texture, and auditory sensation, alongside accompanying textual descriptions. The research team utilized quota sampling to collect sensory expectation data from 8,382 participants via online survey platforms, and designed a two-stage annotation expansion workflow to transform concise ratings into image-based reasoning trajectories. This dataset is primarily used for cross-modal sensory prediction research, with the goal of addressing the challenge of forecasting multi-sensory experiences using visual cues in digital food interaction scenarios, and can support applications such as food recommendation systems and special dietary requirement scenarios.
提供机构:
中佛罗里达大学·工程与计算机科学学院; 中佛罗里达大学·商业管理学院; 中佛罗里达大学·人工智能研究所
创建时间:
2026-04-16
原始信息汇总
FoodSense 数据集概述
数据集基本信息
- 数据集名称: FoodSense
- 数据规模: 544,312 张食物图像
- 图像来源: Yelp 评论
- 标注规模: 包含 438 张经过人工标注的测试图像
- 标注维度: 4 个感官维度(味觉、嗅觉、质地、声音)
- 评分尺度: 每个维度使用 1-5 分制
- 标注者数量: 每张图像由 3 名以上标注者进行标注
数据集构成
- 总图像数量: 544,312 张
- 训练图像数量: 3,590 张(附带评论文本)
- 人工标注测试集数量: 438 张
- 感官维度: 4 个(味觉、嗅觉、质地、声音)
数据标注与质量
- 标注一致性: 标注者间成对平均绝对误差为 1.039;留一法对比平均值的平均绝对误差为 0.793。
- 标注说明: 感官感知具有主观性,人类标注者之间在 5 分量表上存在近 1 分的差异。
数据集特点与用途
- 核心任务: 从单张食物图像预测四种感官维度(味觉、嗅觉、质地、声音),并生成 1-5 分的校准评分及自然语言理由。
- 问题定义: 将人类从视觉外观推断食物非视觉感官属性的能力形式化为“基于视觉线索的跨感官推理”。
- 数据集目的: 为多感官食物理解提供大规模资源。
相关模型与基准
- 配套模型: FoodSense-VL,一个基于 Gemma 3 27B 的两阶段 QLoRA 微调视觉语言模型。
- 基准测试: 在 438 张人工标注的测试图像上,对 9 个模型在 4 个感官维度上进行了评估,使用了 7 项指标。
已知局限性
- 领域偏差: 所有图像均来自 Yelp,严重偏向北美餐厅食物。未测试其在非西方菜系、家常菜或原材料上的性能。
- 标注者人口统计学偏差: 感官感知受文化影响。标注者群体可能无法代表全球食物感知规范的多样性。
- 测试集规模: 438 张人工标注的测试图像提供了中等的统计效力。某些单感官指标的置信区间可能较宽。
- 评分分布: 感官评分集中在 1-5 量表的中间区域,这种分布使得基于均值的预测策略在平均绝对误差指标上具有欺骗性的竞争力。
可用资源
- 代码: 完整的训练、推理和评估流程。包含适用于 SLURM 高性能计算集群的 SBATCH 脚本。
- 模型权重: Stage-1 和 Stage-2 检查点的 QLoRA 适配器。基础模型为 Gemma 3 27B-IT。
- 基准数据: 9 个模型在 5 种感官上的所有预测和评估指标。
搜集汇总
数据集介绍

构建方式
FoodSense数据集的构建过程体现了跨感官推理研究的严谨性。该数据集源自Yelp开放数据集,经过人工筛选去除感知重复项和包含可识别面孔的图像,最终保留了2,987张结构多样的食物图像。通过在线面板和大学实验室招募的8,382名参与者,对每张图像在味觉、嗅觉、质地和声音四个感官维度上进行评估,共收集了66,842个参与者-图像对。评估采用七点李克特量表进行数值评分,并辅以一至两个自由文本描述符,以同时捕捉感官体验的强度和定性描述。为确保标注质量,数据集还引入了“无法从图片判断”选项,并采用严格的图像级隔离划分训练、验证和测试集,以防止数据污染。
使用方法
FoodSense数据集为训练和评估视觉语言模型在跨感官推理任务上的性能提供了标准化的基准。研究人员可利用该数据集进行端到端的模型训练,使模型能够直接从食物图像预测多感官评分并生成接地气的解释。数据集附带了严格划分的训练、验证和测试集,支持模型在未见图像上的泛化能力评估。典型的使用流程包括:首先利用人类标注的数值评分和描述符进行模型初始对齐(第一阶段训练),随后引入通过扩展框架生成的图像接地推理轨迹进行解释生成训练(第二阶段训练)。评估时,模型输出需与人类平均评分进行比较,采用皮尔逊相关系数、林氏一致性相关系数等指标,以全面衡量模型在感官预测上的判别能力与解释质量。
背景与挑战
背景概述
FoodSense数据集由中佛罗里达大学的研究团队于2026年创建,旨在填补视觉语言模型在跨感官推理领域的空白。该数据集的核心研究问题是探索如何从静态食物图像中预测人类对味觉、嗅觉、触觉和听觉的多感官体验,这一方向在认知科学中已有深入研究,但在计算机视觉领域尚未得到充分探索。通过收集66,842个人类标注的图像-参与者配对数据,涵盖2,987张独特食物图像,FoodSense为训练模型从视觉线索推断感官属性提供了重要基础。该数据集推动了多模态模型在食品感知领域的应用,为数字食品界面、推荐系统及感官辅助工具的开发提供了新的可能性。
当前挑战
FoodSense数据集面临的挑战主要体现在两个方面:在领域问题层面,其核心任务是实现从图像到多感官属性的跨模态预测,这要求模型克服视觉特征与主观感官体验之间的语义鸿沟,例如准确推断食物的声音或质地这类非视觉属性;在构建过程中,挑战包括大规模收集人类对感官维度的可靠标注,处理主观评分的高变异性,以及设计流程将简短标注扩展为基于图像的推理轨迹,同时避免生成模型产生幻觉内容,确保数据质量与一致性。
常用场景
经典使用场景
在跨感官认知与多模态人工智能的交叉领域,FoodSense数据集为研究者提供了一个独特的实验平台,用于探索视觉信息如何触发人类对食物味觉、嗅觉、触觉乃至听觉的预期。该数据集最经典的使用场景在于训练和评估视觉-语言模型,使其能够仅从食物图像中预测多维度的感官属性。通过整合近七万条包含数值评分与文本描述的人类标注,研究者可以构建端到端的模型,模拟人类基于视觉线索进行感官推断的认知过程,从而弥合计算机视觉与感官科学之间的鸿沟。
解决学术问题
FoodSense数据集系统地解决了多模态人工智能中一个长期被忽视的核心问题:如何让机器模型理解并预测非视觉的感官体验。传统食物图像分析多局限于识别与分类任务,而该数据集首次将味觉、嗅觉、质地与声音四种感官维度统一于一个基于图像的推理框架中。这不仅推动了视觉-语言模型在细粒度、跨模态感知任务上的能力边界,也为认知科学中关于‘视觉引发多感官模拟’的理论提供了可计算的研究基础。其意义在于建立了首个大规模、可公开获取的感官标注基准,使得模型不仅能进行数值预测,还能生成基于视觉证据的解释性文本,从而增强人工智能系统的可解释性与人性化交互能力。
实际应用
在日益数字化的食品消费生态中,FoodSense数据集的实际应用价值显著。它能够赋能在线餐饮平台与食谱推荐系统,通过分析食物图片自动预测其感官特性,从而帮助消费者在未实际品尝前形成更准确的预期,提升购物满意度与决策效率。该技术也可服务于特殊需求群体,例如为嗅觉减退或需要特定质地饮食的患者提供感官替代信息。此外,在食品营销与产品开发领域,基于图像的感官预测工具能够快速评估新品视觉呈现所传递的感官印象,辅助优化包装设计与广告策略,实现更精准的市场定位。
数据集最近研究
最新研究方向
在食品计算视觉领域,FoodSense数据集的推出标志着研究焦点从传统的食物识别任务向多感官跨模态推理的深刻转变。该数据集通过大规模人类标注,将视觉图像与味觉、嗅觉、触觉及听觉的量化评分和文本描述关联起来,为探索视觉线索如何引发多感官预期提供了首个系统性的基准。前沿研究正围绕基于视觉语言模型的跨感官预测与解释生成展开,特别是通过两阶段微调策略,将紧凑的感官评分扩展为基于图像的推理轨迹,以解决回归任务与生成任务之间的目标冲突。这一方向不仅呼应了认知科学中关于跨感官对应的理论,也为数字餐饮界面、个性化推荐及临床饮食辅助等应用场景提供了新的技术路径,凸显了在静态图像中挖掘隐含多模态信息的重要学术价值与实践意义。
相关研究论文
- 1FoodSense: A Multisensory Food Dataset and Benchmark for Predicting Taste, Smell, Texture, and Sound from Images中佛罗里达大学·工程与计算机科学学院; 中佛罗里达大学·商业管理学院; 中佛罗里达大学·人工智能研究所 · 2026年
以上内容由遇见数据集搜集并总结生成



