weamontt/VQA_Food_Dataset

Name: weamontt/VQA_Food_Dataset
Creator: weamontt
Published: 2026-05-01 17:46:51
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/weamontt/VQA_Food_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个越南食品视觉问答（VQA）数据集，设计用于在越南食品图像上进行视觉问答任务。它由图像-问题-答案三元组组成，每个问题以越南语书写，需要理解视觉内容和语义信息。数据集支持训练和评估结合计算机视觉和自然语言处理的多模态模型。数据集包含6,034个样本，没有缺失图像，问题平均长度为9.57个词。答案分布相对平衡，最常见的答案占比31%。问题类型包括是/否、识别和其他类型。数据集结构包含图像和注释文件，数据格式为JSON。数据增强技术包括图像和文本增强，以提高泛化能力。数据集质量良好，但存在少量重复QA对和是/否问题占主导的局限性。

This dataset is designed for the Visual Question Answering (VQA) task on Vietnamese food images. It consists of image–question–answer triplets, where each question is written in Vietnamese and requires understanding both visual content and semantic information. The dataset supports training and evaluation of multimodal models combining computer vision and natural language processing. It contains 6,034 samples with no missing images, and the average question length is 9.57 words. The answer distribution is relatively balanced, with the most frequent answer accounting for 31% of the dataset. Question types include Yes/No, Recognition, and Other. The dataset structure includes images and annotation files, with data stored in JSON format. Data augmentation techniques are applied to both images and text to improve generalization. The dataset quality is good, but there are some limitations such as a small number of duplicate QA pairs and a dominance of Yes/No questions.

提供机构：

weamontt

搜集汇总

数据集介绍

构建方式

该数据集专为越南语食品图像的视觉问答任务而设计，精心构建了包含图像、问题与答案的三元组样本。数据源自大量越南食品图像，每张图像配备31至39个不同的越南语问题，涵盖视觉内容与语义信息。为确保分布均衡，答案频率被严格控制，最高占比仅为31%，有效减少偏差。此外，数据集应用了多样化的数据增强策略：图像层面包括随机旋转、水平翻转、裁剪及亮度和对比度调整；文本层面则采用同义词替换、结构变化及模拟回译等技术，以提升模型的泛化能力与鲁棒性。最终，数据集包含6034个样本，且无图像缺失，质量可靠。

特点

该数据集具备鲜明且多维的特点。首先，它聚焦于越南食品这一特定领域，问题与答案均以越南语呈现，强调了区域文化背景与多模态理解能力。其次，答案分布相对均衡，最高频答案仅占31%，降低了语言偏见的风险。问题类型丰富，涵盖是非题（占60%）、识别题（占18%）及其他描述性、属性类问题，支持不同推理层次的评估。尽管是非题占比较高可能带来一定偏差，但数据集通过图像与文本的双重增强策略提升了多样性。此外，数据集中仅有32个重复问答对，样本质量较高。

使用方法

该数据集的结构清晰，便于直接使用。图像文件按训练、验证和测试集分别存储在'images'目录下的子文件夹中，对应的标注文件则以JSON格式存放于'annotations'目录下。每个样本记录包含图像路径、问题和答案三字段，例如{'image': 'train/pho/pho_1.jpg', 'question': 'Đây là món gì?', 'answer': 'phở'}。用户可通过Python标准库中的json模块轻松加载标注文件，例如使用json.load()读取训练集JSON文件，即可获取所有样本并用于模型训练与评估。其简洁的格式使其易于集成到各类多模态模型框架中，支持基线建立与高级架构实验。

背景与挑战

背景概述

视觉问答（VQA）作为多模态学习的核心任务，旨在推动模型对图像内容与自然语言的联合理解。VQA_Food_Dataset专注于越南美食领域，于近年由相关研究团队创建，旨在填补越南语VQA数据集的空白。该数据集包含6,034个图像-问题-答案三元组，问题均以越南语书写，覆盖是非判断、物体识别及属性描述等多类语义推理，其答案分布相对均衡（最高占比31%），为越南语多模态研究提供了标准化训练与评估基准。该数据集的推出不仅促进了低资源语言在智能餐饮、文化数字化等领域的应用探索，也为多模态模型在区域性视觉概念上的泛化能力研究贡献了重要资源。

当前挑战

该数据集所解决的领域挑战在于，现有VQA数据集多聚焦英语与通用图像，缺乏针对越南语及本土饮食文化的高质量标注语料，模型易受数据集先验偏见影响，难以实现真正的视觉推理。在构建过程中，研究者需应对越南语复杂语法与多义表达带来的标注一致性难题，同时确保图像与问题的语义耦合紧密，避免测试集因语言模式简单而低估模型性能。此外，数据集中是非题占比约60%，可能引入类别不平衡风险；图像依赖的开放式问题与计数类问题数量有限，进一步限制了模型对细粒度视觉信息的综合推理能力，亟需通过多样化的数据扩充与问题生成策略加以优化。

常用场景

经典使用场景

VQA_Food_Dataset专为越南语美食图像的视觉问答任务而生，它构成了多模态学习领域中一道独特的风景线。研究者利用该数据集构建图像-问题-答案三元组，训练能够同时理解视觉内容与语义信息的跨模态模型。其典型使用场景包括：给定一张越南美食照片，模型需准确回答诸如“这道菜是什么？”或“这道菜是冷的还是热的？”等越南语问题，从而检验其视觉感知与语言推理的协同能力。

实际应用

在实际应用中，VQA_Food_Dataset为智能餐饮推荐系统、无障碍点餐辅助工具以及文化教育平台提供了坚实的数据基石。例如，游客可通过拍摄越南街边美食，借助基于该数据集训练的视觉问答模型，即时获取菜品名称、冷热属性、配料构成等信息，从而跨越语言障碍，享受地道的饮食文化体验。此外，电商平台也可利用该技术为越南食品提供智能化的商品描述与客户服务。

衍生相关工作

该数据集催生了一系列经典的研究工作，包括面向低资源语言的跨模态预训练模型的微调与优化、基于对比学习的多模态表征学习，以及针对越南语视觉问答任务的端到端多任务学习框架。研究者还在此基础上衍生出视觉推理增强网络，通过引入注意力机制与图神经网络，提升模型对食物属性、空间关系等复杂问题的解答能力。这些工作不仅提升了越南语VQA的技术水准，也为其他低资源语言的多模态研究树立了范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集