five

Viet-Menu-gemini-VQA

收藏
魔搭社区2025-11-01 更新2025-01-11 收录
下载链接:
https://modelscope.cn/datasets/5CD-AI/Viet-Menu-gemini-VQA
下载链接
链接失效反馈
官方服务:
资源简介:
# Dataset Overview This dataset is was created from **840** Vietnamese 🇻🇳 menu images in train split of dataset in Quy Nhon AI Hackathon 2022 - Smart menu. Each menu image has been analyzed and annotated using advanced Visual Question Answering (VQA) techniques to produce a comprehensive dataset. There is a set of **5800** detailed descriptions, extractions, and query-based questions and answers generated by the Gemini 1.5 Flash model, currently Google's leading model on the [WildVision Arena Leaderboard](https://huggingface.co/spaces/WildVision/vision-arena). This results in a richly annotated dataset, ideal for various educational and research applications. Please give us a like ❤️ if you find it useful ! <div align="center"> <img src="https://i.pinimg.com/474x/10/92/97/109297852a1c58cf30c3f9181739d124.jpg" width="400"/> </div> Description ``` Vua nước mía sầu riêng Quy Nhơn SHIP: 0943029213-0348032888 Vua mía topping 20k Mía sầu riêng 15k Mía cốt dừa 15k Mía cam tươi 15k Mía chanh dây 15k Mía đào 15k Mía tắc muối 12k Mía hạt chia 10k Mía truyền thống 8-10k Dưa dầm Hải Phòng 20k Dưa dầm sầu riêng 25k Sữa chua mít 20k Trà tắc trân châu xí muội 17k Trà đào 15k Trà bí đào hạt chia 12k Trà tắc 10k Nước sấu Hà Nội 15k Nước me đá dưa khô 15k ``` Extractions ``` {'Tên quán': 'Vua nước mía sầu riêng Quy Nhơn', 'Số điện thoại': '0943029213-0348032888', 'Danh sách món': ['Vua mía topping', 'Mía sầu riêng', 'Mía cốt dừa', 'Mía cam tươi', 'Mía chanh dây', 'Mía đào', 'Mía tắc muối', 'Mía hạt chia', 'Mía truyền thống', 'Dưa dầm Hải Phòng', 'Dưa dầm sầu riêng', 'Sữa chua mít', 'Trà tắc trân châu xí muội', 'Trà đào', 'Trà bí đào hạt chia', 'Trà tắc', 'Nước sấu Hà Nội', 'Nước me đá dưa khô'], 'Giá': ['20k', '15k', '15k', '15k', '15k', '15k', '12k', '10k', '8-10k', '20k', '25k', '20k', '17k', '15k', '12k', '10k', '15k', '15k']} ``` QnA ``` [ { "role": "user", "content": "Tên quán là gì?" }, { "role": "assistant", "content": "Tên quán là Vua nước mía sầu riêng Quy Nhơn." }, { "role": "user", "content": "Số điện thoại của quán là gì?" }, { "role": "assistant", "content": "Số điện thoại của quán là 0943029213-0348032888." }, { "role": "user", "content": "Quán có bán món gì?" }, { "role": "assistant", "content": "Quán có bán rất nhiều món, bao gồm các loại mía như mía sầu riêng, mía cốt dừa, mía cam tươi, mía chanh dây, mía đào, mía tắc muối, mía hạt chia, mía truyền thống, dưa dầm Hải Phòng, dưa dầm sầu riêng, sữa chua mít và các loại trà như trà tắc trân châu xí muội, trà đào, trà bí đào hạt chia, trà tắc, nước sấu Hà Nội, nước me đá dưa khô." }, { "role": "user", "content": "Giá của món mía sầu riêng là bao nhiêu?" }, { "role": "assistant", "content": "Giá của món mía sầu riêng là 15k." }, { "role": "user", "content": "Giá của món trà tắc trân châu xí muội là bao nhiêu?" }, { "role": "assistant", "content": "Giá của món trà tắc trân châu xí muội là 17k." } ] ``` <div style="display: grid; grid-template-columns: repeat(8, 150px); grid-gap: 10px;"> <img src="https://i.pinimg.com/474x/6c/0a/bd/6c0abdf5eab5c7f472188c04ce5feae8.jpg" style="width: 150px;"> <img src="https://i.pinimg.com/474x/84/a5/fc/84a5fc1e2bdb52fe340c5a89e2b41c35.jpg" style="width: 150px;"> <img src="https://i.pinimg.com/474x/f4/c8/7e/f4c87e1217588cb8815461106fd496fa.jpg" style="width: 150px;"> <img src="https://i.pinimg.com/474x/74/85/0d/74850dc0858f42f72661001f78ab474d.jpg" style="width: 150px;"> <img src="https://i.pinimg.com/474x/03/f4/f2/03f4f20a2346c3fa397b858ea80c89a2.jpg" style="width: 150px;"> </div> # Cite ``` @misc{doan2024vintern1befficientmultimodallarge, title={Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese}, author={Khang T. Doan and Bao G. Huynh and Dung T. Hoang and Thuc D. Pham and Nhat H. Pham and Quan T. M. Nguyen and Bang Q. Vo and Suong N. Hoang}, year={2024}, eprint={2408.12480}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2408.12480}, } ```

# 数据集概览 本数据集源自2022年归仁人工智能黑客松(Quy Nhon AI Hackathon 2022)“智能菜单”赛道训练拆分集中的840张越南语菜单图像。所有菜单图像均通过先进的视觉问答(Visual Question Answering, VQA)技术完成分析与标注,以此构建得到本完备数据集。 本次数据集包含由Gemini 1.5 Flash模型生成的5800条详细描述、信息抽取结果以及基于查询的问答对;Gemini 1.5 Flash是当前谷歌在WildVision竞技场排行榜(WildVision Arena Leaderboard,https://huggingface.co/spaces/WildVision/vision-arena)上的领先模型。由此得到的数据集标注丰富,适配各类教育与研究应用场景。 若本数据集对您有所帮助,欢迎点赞支持! <div align="center"> <img src="https://i.pinimg.com/474x/10/92/97/109297852a1c58cf30c3f9181739d124.jpg" width="400"/> </div> # 菜单详情 归仁榴莲椰子水之王 配送电话:0943029213-0348032888 加料椰子水 20k 榴莲椰子水 15k 椰浆椰子水 15k 鲜橙椰子水 15k 西番莲椰子水 15k 桃子椰子水 15k 咸柠檬椰子水 12k 奇亚籽椰子水 10k 传统椰子水 8-10k 海防椰汁冻 20k 榴莲椰汁冻 25k 菠萝蜜酸奶 20k 香茅珍珠草茶 17k 桃子茶 15k 木瓜奇亚籽茶 12k 柠檬茶 10k 河内酸角汁 15k 话梅干冰饮 15k # 信息抽取结果 {'店铺名称': '归仁榴莲椰子水之王', '联系电话': '0943029213-0348032888', '菜品列表': ['加料椰子水', '榴莲椰子水', '椰浆椰子水', '鲜橙椰子水', '西番莲椰子水', '桃子椰子水', '咸柠檬椰子水', '奇亚籽椰子水', '传统椰子水', '海防椰汁冻', '榴莲椰汁冻', '菠萝蜜酸奶', '香茅珍珠草茶', '桃子茶', '木瓜奇亚籽茶', '柠檬茶', '河内酸角汁', '话梅干冰饮'], '售价': ['20k', '15k', '15k', '15k', '15k', '15k', '12k', '10k', '8-10k', '20k', '25k', '20k', '17k', '15k', '12k', '10k', '15k', '15k']} # 问答对 [ { "role": "user", "content": "店铺名称是什么?" }, { "role": "assistant", "content": "店铺名称是归仁榴莲椰子水之王。" }, { "role": "user", "content": "店铺的联系电话是多少?" }, { "role": "assistant", "content": "店铺的联系电话是0943029213-0348032888。" }, { "role": "user", "content": "店铺售卖哪些菜品?" }, { "role": "assistant", "content": "店铺售卖多款饮品,包括榴莲椰子水、椰浆椰子水、鲜橙椰子水、西番莲椰子水、桃子椰子水、咸柠檬椰子水、奇亚籽椰子水、传统椰子水、海防椰汁冻、榴莲椰汁冻、菠萝蜜酸奶,以及香茅珍珠草茶、桃子茶、木瓜奇亚籽茶、柠檬茶、河内酸角汁、话梅干冰饮等茶饮与饮品。" }, { "role": "user", "content": "榴莲椰子水的售价是多少?" }, { "role": "assistant", "content": "榴莲椰子水的售价是15k。" }, { "role": "user", "content": "香茅珍珠草茶的售价是多少?" }, { "role": "assistant", "content": "香茅珍珠草茶的售价是17k。" } ] <div style="display: grid; grid-template-columns: repeat(8, 150px); grid-gap: 10px;"> <img src="https://i.pinimg.com/474x/6c/0a/bd/6c0abdf5eab5c7f472188c04ce5feae8.jpg" style="width: 150px;"> <img src="https://i.pinimg.com/474x/84/a5/fc/84a5fc1e2bdb52fe340c5a89e2b41c35.jpg" style="width: 150px;"> <img src="https://i.pinimg.com/474x/f4/c8/7e/f4c87e1217588cb8815461106fd496fa.jpg" style="width: 150px;"> <img src="https://i.pinimg.com/474x/74/85/0d/74850dc0858f42f72661001f78ab474d.jpg" style="width: 150px;"> <img src="https://i.pinimg.com/474x/03/f4/f2/03f4f20a2346c3fa397b858ea80c89a2.jpg" style="width: 150px;"> </div> # 引用 @misc{doan2024vintern1befficientmultimodallarge, title={Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese}, author={Khang T. Doan and Bao G. Huynh and Dung T. Hoang and Thuc D. Pham and Nhat H. Pham and Quan T. M. Nguyen and Bang Q. Vo and Suong N. Hoang}, year={2024}, eprint={2408.12480}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2408.12480}, }
提供机构:
maas
创建时间:
2025-01-08
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作