Khana
收藏arXiv2025-09-07 更新2025-11-24 收录
下载链接:
https://khana.omkar.xyz/
下载链接
链接失效反馈官方服务:
资源简介:
Khana是一个关于印度菜肴的全面基准数据集,包含了约13.1万张图片,覆盖了80个类别,每个类别有500x500像素的分辨率。该数据集通过建立一个印度菜肴的分类体系,旨在填补现有数据集中对印度菜肴多样性和复杂性的捕捉不足。Khana数据集的创建过程包括从搜索引擎和在线餐饮平台收集数据,并使用自动化和人工验证相结合的方式进行图像标注。数据集被分为训练集、验证集和测试集,比例为70%、15%和15%。Khana数据集的发布为研究人员提供了一个全面的挑战性基准,同时为开发人员提供了一个宝贵的资源,以便他们能够利用印度菜肴的丰富多样性来创建现实世界的应用程序。
提供机构:
暂无信息
创建时间:
2025-09-07
搜集汇总
数据集介绍

构建方式
在印度餐饮文化日益受到全球关注的背景下,Khana数据集通过系统化采集与标注流程构建而成。该数据集从搜索引擎及在线餐饮配送平台(如Swiggy和Zomato)自动抓取图像,利用基于torchvision模型的嵌入向量进行近邻去重,并通过人工审核确保标签一致性。其构建核心在于建立多层次分类体系,涵盖早餐、主菜、小吃等超级类别,并融合地域特色与烹饪技法,最终形成包含13.1万张图像、80个类别的标准化数据集。
使用方法
该数据集适用于图像分类、分割与检索等多模态任务研究。使用者可按7:1.5:1.5比例划分训练集、验证集与测试集,并需关注类别不均衡问题以优化模型性能。在实践应用中,研究人员可基于预训练的卷积神经网络或视觉Transformer架构进行迁移学习,通过调整全连接层参数实现菜肴细粒度分类。其提供的分类体系CSV文件支持语义检索任务,便于开发餐饮推荐系统或跨模态检索应用。
背景与挑战
背景概述
随着全球对多样化烹饪体验兴趣的增长,食物图像模型在提升食物相关应用方面发挥着关键作用。Khana数据集由Omkar Prabhu等人于2025年创建,旨在填补印度美食在图像识别领域的空白。该数据集包含约13.1万张图像,涵盖80个类别,分辨率统一为500x500像素,通过构建层次化分类体系,系统化地组织了印度菜肴的区域多样性和烹饪复杂性。作为首个全面覆盖印度美食的基准数据集,Khana推动了食物分类、分割和检索任务的发展,为研究社区提供了重要的资源支撑。
当前挑战
在领域问题层面,Khana数据集致力于解决印度美食的细粒度分类难题,其挑战主要源于菜肴间的高度视觉相似性、区域变体导致的类内差异以及食材组合的复杂性。构建过程中,数据采集面临多语言标签统一问题,需处理如'pani puri'与'golgappa'等同义词的标准化;同时,类间不平衡现象显著,热门菜肴样本量远超小众品类,且原始图像需通过人工标注与去重流程确保质量,这些因素共同增加了数据集的构建难度。
常用场景
经典使用场景
在食品图像识别领域,Khana数据集作为印度菜肴的基准测试集,被广泛用于训练和评估深度学习模型在细粒度分类任务中的表现。其涵盖80个类别、超过13万张图像的结构,为研究社区提供了探索复杂视觉特征识别的理想平台,特别是在处理具有高度相似性的印度传统食物方面展现出独特价值。
解决学术问题
该数据集有效解决了印度菜系在计算机视觉研究中长期存在的代表性不足问题。通过构建层次化分类体系,它突破了传统模型对区域性烹饪技法、香料搭配和食材组合的识别瓶颈,为跨模态检索、食物分割等任务提供了标准化评估框架,显著提升了模型在多元饮食文化场景下的泛化能力。
实际应用
在现实场景中,Khana数据集支撑着智能餐饮系统的开发,包括在线点餐平台的视觉搜索、个性化营养分析与膳食规划。其丰富的图像样本使移动端应用能够准确识别南北印度特色菜肴,助力外卖平台优化推荐算法,同时为公共卫生领域的饮食健康监测提供技术基础。
数据集最近研究
最新研究方向
随着全球对多元饮食文化的关注日益增长,食物图像识别技术正成为提升餐饮应用智能化水平的关键支撑。Khana数据集作为首个全面覆盖印度菜系的基准资源,其最新研究方向聚焦于解决跨模态检索中的语义鸿沟问题,通过融合视觉变换器与卷积神经网络的混合架构,显著提升了在复杂烹饪风格下的细粒度分类精度。当前研究热点进一步探索多模态大语言模型在食谱生成与营养分析中的协同应用,结合对抗训练策略缓解类间相似性干扰,为智能膳食管理系统的实际部署提供了重要技术基础。这一进展不仅填补了非西方菜系在计算机视觉领域的空白,更推动了饮食文化数字化传承与健康管理的交叉创新。
相关研究论文
- 1通过暂无信息 · 2025年
以上内容由遇见数据集搜集并总结生成



