Viet-Menu-gemini-VQA
收藏魔搭社区2025-11-01 更新2025-01-11 收录
下载链接:
https://modelscope.cn/datasets/5CD-AI/Viet-Menu-gemini-VQA
下载链接
链接失效反馈官方服务:
资源简介:
# Dataset Overview
This dataset is was created from **840** Vietnamese 🇻🇳 menu images in train split of dataset in Quy Nhon AI Hackathon 2022 - Smart menu. Each menu image has been analyzed and annotated using advanced Visual Question Answering (VQA) techniques to produce a comprehensive dataset.
There is a set of **5800** detailed descriptions, extractions, and query-based questions and answers generated by the Gemini 1.5 Flash model, currently Google's leading model on the [WildVision Arena Leaderboard](https://huggingface.co/spaces/WildVision/vision-arena). This results in a richly annotated dataset, ideal for various educational and research applications.
Please give us a like ❤️ if you find it useful !
<div align="center">
<img src="https://i.pinimg.com/474x/10/92/97/109297852a1c58cf30c3f9181739d124.jpg" width="400"/>
</div>
Description
```
Vua nước mía sầu riêng Quy Nhơn SHIP: 0943029213-0348032888
Vua mía topping 20k
Mía sầu riêng 15k
Mía cốt dừa 15k
Mía cam tươi 15k
Mía chanh dây 15k
Mía đào 15k
Mía tắc muối 12k
Mía hạt chia 10k
Mía truyền thống 8-10k
Dưa dầm Hải Phòng 20k
Dưa dầm sầu riêng 25k
Sữa chua mít 20k
Trà tắc trân châu xí muội 17k
Trà đào 15k
Trà bí đào hạt chia 12k
Trà tắc 10k
Nước sấu Hà Nội 15k
Nước me đá dưa khô 15k
```
Extractions
```
{'Tên quán': 'Vua nước mía sầu riêng Quy Nhơn',
'Số điện thoại': '0943029213-0348032888',
'Danh sách món': ['Vua mía topping', 'Mía sầu riêng', 'Mía cốt dừa', 'Mía cam tươi',
'Mía chanh dây', 'Mía đào', 'Mía tắc muối', 'Mía hạt chia', 'Mía truyền thống',
'Dưa dầm Hải Phòng', 'Dưa dầm sầu riêng', 'Sữa chua mít', 'Trà tắc trân châu xí muội',
'Trà đào', 'Trà bí đào hạt chia', 'Trà tắc', 'Nước sấu Hà Nội', 'Nước me đá dưa khô'],
'Giá': ['20k', '15k', '15k', '15k', '15k', '15k', '12k', '10k', '8-10k', '20k', '25k', '20k', '17k', '15k', '12k', '10k', '15k', '15k']}
```
QnA
```
[
{ "role": "user", "content": "Tên quán là gì?" },
{ "role": "assistant", "content": "Tên quán là Vua nước mía sầu riêng Quy Nhơn." },
{ "role": "user", "content": "Số điện thoại của quán là gì?" },
{ "role": "assistant", "content": "Số điện thoại của quán là 0943029213-0348032888." },
{ "role": "user", "content": "Quán có bán món gì?" },
{ "role": "assistant", "content": "Quán có bán rất nhiều món, bao gồm các loại mía như mía sầu riêng, mía cốt dừa, mía cam tươi,
mía chanh dây, mía đào, mía tắc muối, mía hạt chia, mía truyền thống, dưa dầm Hải Phòng, dưa dầm sầu riêng,
sữa chua mít và các loại trà như trà tắc trân châu xí muội, trà đào, trà bí đào hạt chia, trà tắc, nước sấu Hà Nội, nước me đá dưa khô." },
{ "role": "user", "content": "Giá của món mía sầu riêng là bao nhiêu?" },
{ "role": "assistant", "content": "Giá của món mía sầu riêng là 15k." },
{ "role": "user", "content": "Giá của món trà tắc trân châu xí muội là bao nhiêu?" },
{ "role": "assistant", "content": "Giá của món trà tắc trân châu xí muội là 17k." } ]
```
<div style="display: grid; grid-template-columns: repeat(8, 150px); grid-gap: 10px;">
<img src="https://i.pinimg.com/474x/6c/0a/bd/6c0abdf5eab5c7f472188c04ce5feae8.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/474x/84/a5/fc/84a5fc1e2bdb52fe340c5a89e2b41c35.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/474x/f4/c8/7e/f4c87e1217588cb8815461106fd496fa.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/474x/74/85/0d/74850dc0858f42f72661001f78ab474d.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/474x/03/f4/f2/03f4f20a2346c3fa397b858ea80c89a2.jpg" style="width: 150px;">
</div>
# Cite
```
@misc{doan2024vintern1befficientmultimodallarge,
title={Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese},
author={Khang T. Doan and Bao G. Huynh and Dung T. Hoang and Thuc D. Pham and Nhat H. Pham and Quan T. M. Nguyen and Bang Q. Vo and Suong N. Hoang},
year={2024},
eprint={2408.12480},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2408.12480},
}
```
# 数据集概览
本数据集源自2022年归仁人工智能黑客松(Quy Nhon AI Hackathon 2022)“智能菜单”赛道训练拆分集中的840张越南语菜单图像。所有菜单图像均通过先进的视觉问答(Visual Question Answering, VQA)技术完成分析与标注,以此构建得到本完备数据集。
本次数据集包含由Gemini 1.5 Flash模型生成的5800条详细描述、信息抽取结果以及基于查询的问答对;Gemini 1.5 Flash是当前谷歌在WildVision竞技场排行榜(WildVision Arena Leaderboard,https://huggingface.co/spaces/WildVision/vision-arena)上的领先模型。由此得到的数据集标注丰富,适配各类教育与研究应用场景。
若本数据集对您有所帮助,欢迎点赞支持!
<div align="center">
<img src="https://i.pinimg.com/474x/10/92/97/109297852a1c58cf30c3f9181739d124.jpg" width="400"/>
</div>
# 菜单详情
归仁榴莲椰子水之王 配送电话:0943029213-0348032888
加料椰子水 20k
榴莲椰子水 15k
椰浆椰子水 15k
鲜橙椰子水 15k
西番莲椰子水 15k
桃子椰子水 15k
咸柠檬椰子水 12k
奇亚籽椰子水 10k
传统椰子水 8-10k
海防椰汁冻 20k
榴莲椰汁冻 25k
菠萝蜜酸奶 20k
香茅珍珠草茶 17k
桃子茶 15k
木瓜奇亚籽茶 12k
柠檬茶 10k
河内酸角汁 15k
话梅干冰饮 15k
# 信息抽取结果
{'店铺名称': '归仁榴莲椰子水之王',
'联系电话': '0943029213-0348032888',
'菜品列表': ['加料椰子水', '榴莲椰子水', '椰浆椰子水', '鲜橙椰子水',
'西番莲椰子水', '桃子椰子水', '咸柠檬椰子水', '奇亚籽椰子水', '传统椰子水',
'海防椰汁冻', '榴莲椰汁冻', '菠萝蜜酸奶', '香茅珍珠草茶',
'桃子茶', '木瓜奇亚籽茶', '柠檬茶', '河内酸角汁', '话梅干冰饮'],
'售价': ['20k', '15k', '15k', '15k', '15k', '15k', '12k', '10k', '8-10k', '20k', '25k', '20k', '17k', '15k', '12k', '10k', '15k', '15k']}
# 问答对
[
{ "role": "user", "content": "店铺名称是什么?" },
{ "role": "assistant", "content": "店铺名称是归仁榴莲椰子水之王。" },
{ "role": "user", "content": "店铺的联系电话是多少?" },
{ "role": "assistant", "content": "店铺的联系电话是0943029213-0348032888。" },
{ "role": "user", "content": "店铺售卖哪些菜品?" },
{ "role": "assistant", "content": "店铺售卖多款饮品,包括榴莲椰子水、椰浆椰子水、鲜橙椰子水、西番莲椰子水、桃子椰子水、咸柠檬椰子水、奇亚籽椰子水、传统椰子水、海防椰汁冻、榴莲椰汁冻、菠萝蜜酸奶,以及香茅珍珠草茶、桃子茶、木瓜奇亚籽茶、柠檬茶、河内酸角汁、话梅干冰饮等茶饮与饮品。" },
{ "role": "user", "content": "榴莲椰子水的售价是多少?" },
{ "role": "assistant", "content": "榴莲椰子水的售价是15k。" },
{ "role": "user", "content": "香茅珍珠草茶的售价是多少?" },
{ "role": "assistant", "content": "香茅珍珠草茶的售价是17k。" }
]
<div style="display: grid; grid-template-columns: repeat(8, 150px); grid-gap: 10px;">
<img src="https://i.pinimg.com/474x/6c/0a/bd/6c0abdf5eab5c7f472188c04ce5feae8.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/474x/84/a5/fc/84a5fc1e2bdb52fe340c5a89e2b41c35.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/474x/f4/c8/7e/f4c87e1217588cb8815461106fd496fa.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/474x/74/85/0d/74850dc0858f42f72661001f78ab474d.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/474x/03/f4/f2/03f4f20a2346c3fa397b858ea80c89a2.jpg" style="width: 150px;">
</div>
# 引用
@misc{doan2024vintern1befficientmultimodallarge,
title={Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese},
author={Khang T. Doan and Bao G. Huynh and Dung T. Hoang and Thuc D. Pham and Nhat H. Pham and Quan T. M. Nguyen and Bang Q. Vo and Suong N. Hoang},
year={2024},
eprint={2408.12480},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2408.12480},
}
提供机构:
maas
创建时间:
2025-01-08



