Viet-OCR-VQA
收藏魔搭社区2025-12-04 更新2025-01-11 收录
下载链接:
https://modelscope.cn/datasets/5CD-AI/Viet-OCR-VQA
下载链接
链接失效反馈官方服务:
资源简介:
# Dataset Overview
The dataset comprises over **137,000** images potentially containing Vietnamese 🇻🇳 textual content. It was curated using the Gemini 1.5 Flash model, currently Google model leading on the [WildVision Arena Leaderboard](https://huggingface.co/spaces/WildVision/vision-arena) for Visual Question Answering (VQA). Each image is accompanied by a detailed description and 5 self-generated questions and answers related to the textual content within the image.
In total, there are more than **822,679** individual questions, encompassing both descriptive prompts and query-based inquiries.
Please give us a like ❤️ if you find it useful !
<div align="center">
<img src="https://i.pinimg.com/736x/6f/8c/2b/6f8c2bedb9869747ea4bfc1a05e21cf8.jpg" width="700"/>
</div>
Description
```
Bức ảnh là trang đầu tiên của một cuốn hộ chiếu Việt Nam. Bên trái, phần nội dung được in bằng tiếng Việt và tiếng Anh, giải thích về quyền sở hữu và giá trị của hộ chiếu.
Bên phải, phần nội dung in bằng tiếng Việt và tiếng Anh thể hiện quốc tịch của chủ hộ chiếu: "Cộng hòa xã hội chủ nghĩa Việt Nam" và "SOCIALIST REPUBLIC OF VIET NAM".
Bên dưới là dòng chữ "HỘ CHIẾU" và "PASSPORT", và cuối cùng là một số seri: "P00005885".
```
QnA
```
[{ "role": "user", "content": "Hộ chiếu này thuộc quyền sở hữu của ai?" },
{ "role": "assistant", "content": "Hộ chiếu này thuộc quyền sở hữu của Nhà nước Cộng hòa xã hội chủ nghĩa Việt Nam và chỉ cấp cho công dân Việt Nam." },
{ "role": "user", "content": "Hộ chiếu này có giá trị ở đâu?" },
{ "role": "assistant", "content": "Hộ chiếu này có giá trị đi đến tất cả các nước, trừ khi có quy định khác." },
{ "role": "user", "content": "Chính phủ nước Cộng hòa xã hội chủ nghĩa Việt Nam có vai trò gì với người mang hộ chiếu?" },
{ "role": "assistant", "content": "Chính phủ nước Cộng hòa xã hội chủ nghĩa Việt Nam yêu cầu các nhà chức trách có thẩm quyền liên quan cho phép người mang hộ chiếu này được đi lại dễ dàng và được tạo mọi sự giúp đỡ cần thiết." },
{ "role": "user", "content": "Số seri của hộ chiếu này là gì?" },
{ "role": "assistant", "content": "Số seri của hộ chiếu này là P00005885." },
{ "role": "user", "content": "Quốc tịch của chủ hộ chiếu này là gì?" },
{ "role": "assistant", "content": "Quốc tịch của chủ hộ chiếu là Việt Nam." }]
```
# Dataset Creation
The dataset was collected from Google Image searches across more than 1,700 keywords, including a variety of categories such as legal documents, educational materials, signage, advertisements, and more. Additionally, it includes over 17,000 images specifically focused on 6,000 books and book covers.
```
[
"📖 sổ hộ khẩu", "📚 đề thi cuối kỳ", "🏢 biển hiệu", "📅 hội thảo", "🪦 giấy báo tử",
"💰 bảng chi phí", "📄 tờ rơi", "🎓 luận văn", "💸 phiếu giảm giá", "🚗 giấy phép lái xe",
"📣 biểu ngữ", "🧾 hóa đơn", "🎟️ vé cửa hàng điện tử", "🎫 vé số", "📢 thông báo", "📥 phiếu nhập",
"🍽️ thực đơn", "📜 hợp đồng", "🏪 biển hiệu cửa hàng", "🎌 băng rôn chiến dịch", "🎭 sân khấu",
"📋 cv nhân sự", "📸 hình ảnh thương hiệu", "📜 giấy phép", "💵 phiếu lương", "🏛️ hội nghị",
"🛂 hộ chiếu", "🏅 giấy khen", "📚 nhà sách", "📺 quảng cáo truyền thông", "🏷️ tem nhãn",
"📊 thống kê", "📈 số liệu", "📉 chỉ số", "📈 đồ thị", "📊 biểu đồ", "📋 phân tích",
"📜 thông tư", "📃 nghị định", "📝 kế hoạch", "📊 báo cáo", "🔬 nghiên cứu", "🗂️ sơ đồ",
"💳 thẻ tín dụng", "🔄 quy trình", "🏫 đào tạo", "📘 hướng dẫn", "📕 cẩm nang", "🗺️ bản đồ", "🧾 hóa đơn",
"🏆 bằng khen", "📜 giấy báo", "💻 thông tin học", "📝 đơn xin việc", "💼 danh thiếp",
"📜 chứng chỉ", "📑 bản thảo", "📜 lịch sử", "📊 kết quả học tập", "📅 thời khóa biểu",
"💡 hóa đơn điện nước", "📝 đơn xin nghỉ", "🗂️ thông tin cá nhân", "🏡 sổ đỏ", "🆔 căn cước công dân",
"📚 thư viện", "🎟️ hóa đơn ca nhạc", "📄 biên lai", "🍽️ hóa đơn ăn uống", "📄 tài liệu hội nghị",
"📜 giấy báo nhập học", "👶 giấy khai sinh", "📕 sổ y bạ", "🪦 giấy chứng tử", "🧾 phiếu thu",
"📩 thư mời", "🏨 hóa đơn khách sạn", "📜 giấy phép kinh doanh", "📜 giấy chứng nhận",
"💡 hóa đơn tiền điện", "💧 hóa đơn tiền nước", "📦 phiếu xuất kho", "🛡️ giấy bảo hành",
"💵 bảng lương", "📝 phiếu đăng ký", "🏥 hóa đơn viện phí", "🛒 hóa đơn mua hàng", "📜 giấy xác nhận",
"📜 giấy nợ", "🚚 hóa đơn vận chuyển", "📄 phiếu chi", "🩺 giấy khám sức khỏe", "💵 giấy nộp tiền",
"📦 phiếu đặt hàng", "🏡 giấy tạm trú", "🍽️ hóa đơn nhà hàng", "📦 phiếu nhận hàng",
"📜 thơ văn", "✍️ viết chữ đẹp", "📓 nhật ký", "🖋️ lưu bút viết tay", "📜 giấy vay nợ"
]
```
<div style="display: grid; grid-template-columns: repeat(8, 100px); grid-gap: 10px;">
<img src="https://i.pinimg.com/736x/f3/96/ba/f396baae04cc2a61d421dba5e7d1fbb7.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/10/e3/c0/10e3c0a765a0d1b503b600c12cba07ae.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/ae/ec/f3/aeecf38cd85ac9a0155cd8795c1d4b75.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/5b/08/76/5b08765e7678f896347766a49b82b602.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/6f/23/60/6f236033004b44ce31716866b1a9030b.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/b2/58/eb/b258ebcf8b734f2f1dab85f22ae70cf1.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/0d/69/fe/0d69fe46149bb71880a921c5c5745db6.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/2f/61/df/2f61df353dd2ca0920f6fe77db416e9a.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/ef/2f/20/ef2f20accef90cf940dcdd4ccb41aa34.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/a7/ea/48/a7ea4807c84cfdf646e51582abd95cd8.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/b2/e1/38/b2e138a526d68f712cbf66a2af82b633.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/cc/dd/fc/ccddfc01befd0245380b0d94d1c3c06c.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/25/b7/05/25b705128bc0272c5662972c4d7826cd.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/d3/47/ec/d347ec0bd2ca2acb9b52843e9d033d42.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/f3/43/22/f343222639f8717d1071ea8ddeb08320.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/ed/3a/ca/ed3acac8647c9bc5b2ac7727f66efa30.jpg" style="width: 100px;">
</div>
# Cite
```
@misc{doan2024vintern1befficientmultimodallarge,
title={Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese},
author={Khang T. Doan and Bao G. Huynh and Dung T. Hoang and Thuc D. Pham and Nhat H. Pham and Quan T. M. Nguyen and Bang Q. Vo and Suong N. Hoang},
year={2024},
eprint={2408.12480},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2408.12480},
}
```
# 数据集概览
本数据集包含超过137000张可能包含越南语文本内容的图像。本数据集由Gemini 1.5 Flash模型整理构建,该模型是目前在视觉问答(Visual Question Answering, VQA)领域的[WildVision Arena排行榜](https://huggingface.co/spaces/WildVision/vision-arena)中位居前列的Google旗下模型。每张图像均配有详细描述,以及5条针对图像内文本内容的自主生成问答对。
总计包含超过822679条独立问题,涵盖描述性提示与查询类问询两类形式。
若您认为本数据集具有实用价值,请为我们点赞 ❤️!
<div align="center">
<img src="https://i.pinimg.com/736x/6f/8c/2b/6f8c2bedb9869747ea4bfc1a05e21cf8.jpg" width="700"/>
</div>
### 示例说明
#### 图像描述
本示例图像为一本越南护照的首页。左侧区域以越语及英语印刷,阐释了护照的权属与价值。
右侧区域同样以越语和英语标注了护照持有人的国籍:"越南社会主义共和国"与"SOCIALIST REPUBLIC OF VIET NAM"。
页面下方印有"HỘ CHIẾU"与"PASSPORT"字样,最后则是一串序列号:"P00005885"。
#### 问答对
[{ "role": "user", "content": "这本护照归谁所有?" },
{ "role": "assistant", "content": "本护照归越南社会主义共和国所有,且仅可颁发给越南公民。" },
{ "role": "user", "content": "这本护照的价值体现在何处?" },
{ "role": "assistant", "content": "除非另有规定,本护照可用于前往所有国家。" },
{ "role": "user", "content": "越南社会主义共和国政府对持照人负有何种责任?" },
{ "role": "assistant", "content": "越南社会主义共和国政府要求相关主管机关允许持照人顺利通行,并提供必要的一切协助。" },
{ "role": "user", "content": "这本护照的序列号是什么?" },
{ "role": "assistant", "content": "本护照的序列号为P00005885。" },
{ "role": "user", "content": "本护照持有人的国籍是什么?" },
{ "role": "assistant", "content": "本护照持有人的国籍为越南。" }]
# 数据集构建
本数据集通过谷歌图片搜索,基于超过1700个关键词采集构建,覆盖法律文书、教学资料、标识标牌、广告物料等多个品类。此外,数据集还包含超过17000张专门聚焦于6000种书籍及书籍封面的图像。
[
"📖 户口本", "📚 期末考试试卷", "🏢 企业招牌", "📅 研讨会", "🪦 死亡证明",
"💰 费用明细表", "📄 传单", "🎓 学位论文", "💸 优惠券", "🚗 机动车驾驶证",
"📣 横幅标语", "🧾 发票", "🎟️ 电商平台订单凭证", "🎫 彩票", "📢 通知公告", "📥 入库单",
"🍽️ 菜单", "📜 合同", "🏪 店铺招牌", "🎌 活动宣传横幅", "🎭 舞台相关物料",
"📋 人事简历", "📸 品牌宣传图", "📜 许可证", "💵 工资条", "🏛️ 会议资料",
"🛂 护照", "🏅 奖状", "📚 书店相关物料", "📺 传媒广告", "🏷️ 标签贴纸",
"📊 统计报表", "📈 数据图表", "📉 指数图表", "📈 折线图", "📊 各类图表", "📋 分析报告",
"📜 通知函件", "📃 政府决议", "📝 工作计划", "📊 工作报告", "🔬 研究资料", "🗂️ 流程图/架构图",
"💳 信用卡凭证", "🔄 流程说明", "🏫 培训资料", "📘 使用指南", "📕 实用手册", "🗺️ 地图", "🧾 发票",
"🏆 荣誉证书", "📜 公告文书", "💻 学习资料", "📝 求职申请", "💼 名片",
"📜 资格证书", "📑 草案文稿", "📜 历史文档", "📊 学业成绩单", "📅 课程表",
"💡 水电缴费单", "📝 请假申请", "🗂️ 个人信息资料", "🏡 房屋产权证书", "🆔 居民身份证",
"📚 图书馆相关资料", "🎟️ 娱乐演出账单", "📄 收据", "🍽️ 餐饮账单", "📄 会议资料",
"📜 入学通知书", "👶 出生证明", "📕 病历档案", "🪦 死亡证明", "🧾 收款凭证",
"📩 邀请函", "🏨 酒店住宿账单", "📜 营业执照", "📜 各类证明文件",
"💡 电费账单", "💧 水费账单", "📦 出库单", "🛡️ 保修凭证", "💵 工资表",
"📝 报名表", "🏥 住院缴费单", "🛒 购物账单", "📜 确认函", "📜 借据",
"🚚 货运账单", "📄 支出凭证", "🩺 体检报告", "💵 缴款凭证", "📦 订单凭证",
"🏡 暂住证明", "🍽️ 餐厅账单", "📦 收货凭证", "📜 文学作品文本", "✍️ 书法作品",
"📓 日记手稿", "🖋️ 手写笔记", "📜 贷款凭证"
]
<div style="display: grid; grid-template-columns: repeat(8, 100px); grid-gap: 10px;">
<img src="https://i.pinimg.com/736x/f3/96/ba/f396baae04cc2a61d421dba5e7d1fbb7.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/10/e3/c0/10e3c0a765a0d1b503b600c12cba07ae.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/ae/ec/f3/aeecf38cd85ac9a0155cd8795c1d4b75.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/5b/08/76/5b08765e7678f896347766a49b82b602.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/6f/23/60/6f236033004b44ce31716866b1a9030b.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/b2/58/eb/b258ebcf8b734f2f1dab85f22ae70cf1.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/0d/69/fe/0d69fe46149bb71880a921c5c5745db6.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/2f/61/df/2f61df353dd2ca0920f6fe77db416e9a.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/ef/2f/20/ef2f20accef90cf940dcdd4ccb41aa34.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/a7/ea/48/a7ea4807c84cfdf646e51582abd95cd8.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/b2/e1/38/b2e138a526d68f712cbf66a2af82b633.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/cc/dd/fc/ccddfc01befd0245380b0d94d1c3c06c.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/25/b7/05/25b705128bc0272c5662972c4d7826cd.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/d3/47/ec/d347ec0bd2ca2acb9b52843e9d033d42.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/f3/43/22/f343222639f8717d1071ea8ddeb08320.jpg" style="width: 100px;">
<img src="https://i.pinimg.com/736x/ed/3a/ca/ed3acac8647c9bc5b2ac7727f66efa30.jpg" style="width: 100px;">
</div>
# 引用
@misc{doan2024vintern1befficientmultimodallarge,
title={Vintern-1B: 面向越南语的高效多模态大语言模型},
author={Khang T. Doan and Bao G. Huynh and Dung T. Hoang and Thuc D. Pham and Nhat H. Pham and Quan T. M. Nguyen and Bang Q. Vo and Suong N. Hoang},
year={2024},
eprint={2408.12480},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2408.12480},
}
提供机构:
maas
创建时间:
2025-01-08



