Viet-Vintext-gemini-VQA
收藏魔搭社区2025-11-01 更新2025-01-11 收录
下载链接:
https://modelscope.cn/datasets/5CD-AI/Viet-Vintext-gemini-VQA
下载链接
链接失效反馈官方服务:
资源简介:
# Dataset Overview
This dataset is was created from **1056** Vietnamese 🇻🇳 images in train split of dataset [VinText](https://openaccess.thecvf.com/content/CVPR2021/papers/Nguyen_Dictionary-Guided_Scene_Text_Recognition_CVPR_2021_paper.pdf) [1]. Each image has been analyzed and annotated using advanced Visual Question Answering (VQA) techniques to produce a comprehensive dataset.
There is a set of over **6,000** detailed descriptions and query-based questions and answers generated by the Gemini 1.5 Flash model, currently Google's leading model on the [WildVision Arena Leaderboard](https://huggingface.co/spaces/WildVision/vision-arena). This results in a richly annotated dataset, ideal for various educational and research applications.
Please give us a like ❤️ if you find it useful !
<div align="center">
<img src="https://i.pinimg.com/736x/f2/21/4f/f2214fece03edb75843e2347ed6975ba.jpg" width="400"/>
</div>
Description
```
Bức ảnh chụp một biển báo giao thông hình chữ nhật được treo trên một cột trụ bằng sắt.
Bảng hiệu được chia làm hai phần: phần trên có nền đỏ, phần dưới có nền màu xám.
Phần trên của bảng hiệu ghi nội dung: 'NGƯỜI ĐIỀU KHIỂN XE Ô TÔ TRÊN ĐƯỜNG MÀ TRONG MÁU HOẶC HƠI THỞ CÓ NỒNG ĐỘ CỒN LÀ VI PHẠM'.
Phần dưới của bảng hiệu có nền màu xám và được chia thành 3 dòng, mỗi dòng ghi một hình phạt: '- PHẠT TIỀN ĐẾN 18.000.000Đ', '- TƯỚC GPLX ĐẾN 6 THÁNG',
'- TẠM GIỮ XE ĐẾN 7 NGÀY'. Dưới phần nội dung chính là chữ 'CSGT DV ##' Phía dưới bảng hiệu là một đám cỏ xanh mướt, phía sau bảng hiệu là một tòa nhà trắng ở xa và những cây cối xanh rì.
```
QnA
```
[
{ "role": "user", "content": "Nội dung chính của biển báo này là gì?" },
{ "role": "assistant", "content": "Nội dung chính của biển báo là cảnh báo về việc điều khiển xe ô tô trên đường mà trong máu hoặc hơi thở có nồng độ cồn là vi phạm." },
{ "role": "user", "content": "Những hình phạt nào được nêu trong biển báo?" },
{ "role": "assistant", "content": "Biển báo nêu rõ các hình phạt gồm: phạt tiền đến 18.000.000Đ, tước GPLX đến 6 tháng, tạm giữ xe đến 7 ngày." },
{ "role": "user", "content": "Ai là đối tượng áp dụng các hình phạt này?" },
{ "role": "assistant", "content": "Các hình phạt này áp dụng cho người điều khiển xe ô tô trên đường mà trong máu hoặc hơi thở có nồng độ cồn." },
{ "role": "user", "content": "Bảng hiệu này được treo ở đâu?" },
{ "role": "assistant", "content": "Bảng hiệu được treo ở một con đường có nhiều cây cối và một tòa nhà trắng ở phía xa." },
{ "role": "user", "content": "Biển báo này nhằm mục đích gì?" },
{ "role": "assistant", "content": "Biển báo này nhằm mục đích tuyên truyền, cảnh báo và nhắc nhở người điều khiển xe ô tô không được lái xe khi đã sử dụng rượu bia, nhằm đảm bảo an toàn giao thông." } ]
```
<div style="display: grid; grid-template-columns: repeat(8, 150px); grid-gap: 10px;">
<img src="https://i.pinimg.com/736x/48/66/58/486658e76ea4be33f9af206dd809dc9d.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/736x/b2/4f/cc/b24fcccddd11510b21bd8f0f0f3ea320.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/736x/5e/32/a3/5e32a32634cd2f80823d9083d3109642.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/736x/f7/21/4c/f7214c1e4ce18b8e1c6f8eba948e4954.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/736x/a7/4e/36/a74e36620c874684920fbdf026455cb4.jpg" style="width: 150px;">
</div>
# Cite
```
@misc{doan2024vintern1befficientmultimodallarge,
title={Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese},
author={Khang T. Doan and Bao G. Huynh and Dung T. Hoang and Thuc D. Pham and Nhat H. Pham and Quan T. M. Nguyen and Bang Q. Vo and Suong N. Hoang},
year={2024},
eprint={2408.12480},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2408.12480},
}
```
# References
[1] Nguyen, N., Nguyen, T., Tran, V., Tran, M.T., Ngo, T.D., Nguyen, T.H. and Hoai, M., 2021. Dictionary-guided scene text recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 7383-7392).
# 数据集概览
本数据集取材自数据集[VinText](https://openaccess.thecvf.com/content/CVPR2021/papers/Nguyen_Dictionary-Guided_Scene_Text_Recognition_CVPR_2021_paper.pdf)[1]训练拆分集中的1056张越南语图像🇻🇳。每张图像均采用先进的视觉问答(Visual Question Answering, VQA)技术完成分析与标注,最终形成本综合数据集。
本次数据集配套生成了超6000条详细描述与基于查询的问答对,均由Gemini 1.5 Flash模型生成——该模型是目前谷歌在[WildVision Arena排行榜](https://huggingface.co/spaces/WildVision/vision-arena)上的旗舰模型。由此构建的标注丰富的数据集,可广泛适配各类教育与研究场景。
若本数据集对您有所帮助,请不吝点赞❤️!
<div align="center">
<img src="https://i.pinimg.com/736x/f2/21/4f/f2214fece03edb75843e2347ed6975ba.jpg" width="400"/>
</div>
## 描述
本图像展示了一块悬挂于铁柱上的矩形交通警示牌。该警示牌分为上下两部分:上半部分背景为红色,下半部分背景为灰色。警示牌上半部分印有文字:"在道路上驾驶机动车时,血液或呼气中酒精浓度超标属于违法行为"。警示牌下半部分为灰色背景,分为三行,每行标注一项处罚措施:"- 罚款最高1800万越南盾"、"- 暂扣机动车驾驶证最长6个月"、"- 扣留车辆最长7日"。正文下方印有文字"CSGT DV ##"。警示牌下方是一片茂密的绿草,后方远处可见一栋白色建筑与葱郁的树木。
## 问答对
[
{ "role": "user", "content": "该警示牌的核心内容是什么?" },
{ "role": "assistant", "content": "本警示牌的核心内容为警示:在道路上驾驶机动车时,血液或呼气中酒精浓度超标属于违法行为。" },
{ "role": "user", "content": "警示牌中列明了哪些处罚措施?" },
{ "role": "assistant", "content": "该警示牌明确列明的处罚措施包括:最高罚款1800万越南盾、暂扣机动车驾驶证最长6个月、扣留车辆最长7日。" },
{ "role": "user", "content": "上述处罚措施适用于哪些主体?" },
{ "role": "assistant", "content": "上述处罚措施适用于在道路上驾驶机动车且血液或呼气中酒精浓度超标的人员。" },
{ "role": "user", "content": "该警示牌悬挂于何处?" },
{ "role": "assistant", "content": "该警示牌悬挂于一处道路旁,周边绿植繁茂,远处可见一栋白色建筑。" },
{ "role": "user", "content": "该警示牌的设置目的是什么?" },
{ "role": "assistant", "content": "本警示牌旨在宣传、警示并提醒机动车驾驶人切勿酒后驾车,以保障道路交通安全。" }
]
<div style="display: grid; grid-template-columns: repeat(8, 150px); grid-gap: 10px;">
<img src="https://i.pinimg.com/736x/48/66/58/486658e76ea4be33f9af206dd809dc9d.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/736x/b2/4f/cc/b24fcccddd11510b21bd8f0f0f3ea320.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/736x/5e/32/a3/5e32a32634cd2f80823d9083d3109642.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/736x/f7/21/4c/f7214c1e4ce18b8e1c6f8eba948e4954.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/736x/a7/4e/36/a74e36620c874684920fbdf026455cb4.jpg" style="width: 150px;">
</div>
# 引用
@misc{doan2024vintern1befficientmultimodallarge,
title={Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese},
author={Khang T. Doan and Bao G. Huynh and Dung T. Hoang and Thuc D. Pham and Nhat H. Pham and Quan T. M. Nguyen and Bang Q. Vo and Suong N. Hoang},
year={2024},
eprint={2408.12480},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2408.12480},
}
# 参考文献
[1] Nguyen, N., Nguyen, T., Tran, V., Tran, M.T., Ngo, T.D., Nguyen, T.H. and Hoai, M., 2021. Dictionary-guided scene text recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 7383-7392).
提供机构:
maas
创建时间:
2025-01-08



