ViFoodVQA

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/hoangphann/ViFoodVQA

下载链接

链接失效反馈

官方服务：

资源简介：

ViFoodVQA 是一个基于越南食品知识的视觉问答基准数据集。每个样本包含一张越南菜肴的图片、一个基于食品知识图谱的越南语多选题、四个选项、正确答案、解释答案的推理过程以及用于基础的知识图谱三元组。数据集包含 9 个字段：vqa_id（唯一标识符）、image_id（图片标识符）、image（图片路径）、qtype（问题类型）、question（问题文本）、choices（选项字典）、answer（正确答案）、rationale（答案解释）、triples_used（知识图谱三元组列表）。问题类型包括食材识别、烹饪技术、食物搭配、饮食限制等 10 类。数据集分为训练集（6554 样本）、验证集（929 样本）和测试集（1424 样本），其中测试集经过人工验证。适用于视觉问答和知识图谱相关任务。

创建时间：

2026-04-24

原始信息汇总

数据集概览：ViFoodVQA

ViFoodVQA 是一个面向越南美食的、基于知识图谱的视觉问答基准数据集。数据集中的每个样本包含越南美食图片、基于美食知识图谱的越南语多选题、四个选项、正确答案、答案解释以及用于支撑的知识三元组。

数据集规模与划分

总样本数：约 8,907 条，位于 1K 到 10K 之间
数据划分：
- 训练集：6,554 条（生成样本，未经完全人工审核）
- 验证集：929 条（生成样本，未经完全人工审核）
- 测试集：1,424 条（经人工审核并确认保留的样本）
总下载大小：约 13.5 GB
总数据集大小：约 13.4 GB

数据字段

每条记录包含 9 个字段：

字段	类型	说明
`vqa_id`	`int`	唯一 VQA 样本标识符
`image_id`	`string`	图片标识符（如 `image000005`）
`image`	`string`	图片文件在 `images/` 目录中的相对路径
`qtype`	`string`	问题类型
`question`	`string`	越南语多选题
`choices`	`dict`	答案选项：`{"A": "...", "B": "...", "C": "...", "D": "..."}`
`answer`	`string`	正确答案键：`A`、`B`、`C` 或 `D`
`rationale`	`string`	越南语解释
`triples_used`	`list[dict]`	用于支撑的知识图谱三元组，每个包含 `subject`、`relation`、`target`

问题类型

共包含 10 种问题类型：

ingredients：识别菜肴的配料
ingredient_category：将配料分类到食物组
cooking_technique：识别烹饪方法
food_pairings：识别食物搭配组合
dietary_restrictions：识别饮食限制信息
allergen_restrictions：识别过敏原信息
dish_classification：对菜肴类型进行分类
flavor_profile：识别风味特征
origin_locality：识别地区起源
substitution_rules：识别配料替代规则

数据使用示例

python from datasets import load_dataset

dataset = load_dataset("hoangphann/ViFoodVQA")

访问一个样本

sample = dataset["train"][0] print(sample["question"]) print(sample["choices"]) print(sample["answer"])

搜集汇总

数据集介绍

构建方式

ViFoodVQA是一个面向越南饮食文化的知识驱动型视觉问答基准数据集。该数据集通过融合越南美食知识图谱与真实菜品图像，精心构造了多模态问答样本。每个样本包含一张越南菜肴图像、一个基于知识图谱生成的越南语多选题、四个候选答案、正确答案、答案推理依据以及用于支撑推理的知识三元组。数据集共涵盖8907个样本，划分为训练集（6554条）、验证集（929条）和测试集（1424条），其中测试集样本经过人工严格校验以保证标注质量。

特点

该数据集展现了鲜明的领域特色与结构化优势。首先，它围绕越南美食构建了十类细粒度问题类型，包括食材识别、烹饪技法、风味特征、饮食禁忌及替换规则等，全面覆盖了烹饪知识的不同维度。其次，每个样本不仅提供正确答案，还附带了详细的推理依据与知识图谱三元组，使得模型训练不仅限于答案预测，更能学会解释与推理。此外，数据集采用越南语标注，填补了低资源语言在美食领域视觉问答研究中的空白。

使用方法

研究者可借助HuggingFace的datasets库轻松加载ViFoodVQA数据集。通过load_dataset("hoangphann/ViFoodVQA")即可获取全部数据，并支持按train、validation和test拆分访问。每个样本以字典形式返回，包含问题、选项、答案及推理信息。该数据集适用于多模态推理、视觉问答、知识增强型视觉理解等任务，尤其适合评估模型在结合外部知识进行跨模态推理方面的能力，可为越南语与美食领域的视觉语言模型研究提供标准化的评测基准。

背景与挑战

背景概述

视觉问答（VQA）作为多模态理解领域的前沿方向，旨在使模型能够基于图像内容回答自然语言问题。然而，现有VQA基准多聚焦于通用场景如MSCOCO，缺乏对特定领域尤其是饮食文化的深度覆盖。越南美食以其丰富的食材、烹饪技法与地域特色著称，但相关资源仍显匮乏。为此，ViFoodVQA数据集应运而生，于近年由hoangphann等研究者创建，专注于越南饮食文化的知识驱动视觉问答。该数据集涵盖十类问题，如食材识别、烹饪技法、风味特征等，并基于食物知识图谱构建三元组以提供解释性推理。ViFoodVQA不仅填补了越南语多模态基准的空白，更为推动低资源语言在多模态场景下的知识推理研究提供了重要平台。

当前挑战

ViFoodVQA数据集面临的核心挑战在于领域问题的复杂性与构建过程的艰巨性。从领域问题看，越南饮食涉及大量特有食材、烹饪技法与文化背景，通用VQA模型难以精确捕获此类细粒度知识，且多模态推理需同步理解视觉特征与知识图谱中的语义关联，增大了模型设计难度。在构建过程中，挑战尤为显著：首先，知识图谱的构建需依赖专家标注，尤其三元组中subject、relation、target的准确提取要求对越南饮食文化有深厚理解；其次，图像采集面临菜肴多样性与光照、角度等条件差异，需确保视觉质量与问题匹配；最后，测试集虽经人工验证，但训练与验证集仍为自动生成，存在噪声与标注不一致问题，影响模型泛化能力与评估可靠性。

常用场景

经典使用场景

ViFoodVQA数据集专为越南语食品领域的视觉问答任务而设计，其经典使用场景在于构建和评估多模态推理模型。研究者利用该数据集中包含的越南菜肴图像、基于食物知识图谱的多选题及正确答案，训练模型在视觉与文本双模态间建立深层语义关联。例如，模型需根据图像识别菜品、推断食材成分、烹饪技法或风味特征，从而回答诸如“这道菜使用了哪些食材？”或“它属于哪种地方菜系？”等问题。该数据集特别强调了知识图谱三元组的支撑作用，使得模型不仅能依赖视觉特征，还能从结构化的食物知识中汲取推理依据，从而提升了多模态问答的准确性与可解释性。

衍生相关工作

基于ViFoodVQA所开创的知识增强型多模态问答范式，学术界已衍生出若干经典工作。一方面，研究者借鉴其知识图谱三重结构，尝试将外部结构化知识更紧密地嵌入视觉语言模型，提出了知识蒸馏型的多模态推理框架；另一方面，该数据集的细粒度问题类型（如替代规则、原产地分类）激发了针对特定推理能力的评估任务，如成分级视觉定位与因果推理。此外，跨语言迁移学习的研究人员利用ViFoodVQA作为目标域，探索了在低资源语言上通过零样本或少样本迁移提升视觉问答性能的策略。这些衍生工作不仅进一步验证了数据集的设计理念，也扩展了其在多语种多模态基础模型能力评测中的应用边界。

数据集最近研究