Viet-Handwriting-gemini-VQA
收藏魔搭社区2025-12-04 更新2025-01-11 收录
下载链接:
https://modelscope.cn/datasets/5CD-AI/Viet-Handwriting-gemini-VQA
下载链接
链接失效反馈官方服务:
资源简介:
# Dataset Overview
This dataset is was created from **1252** Vietnamese 🇻🇳 Handwriting images in train split of dataset [**Cinnamon AI Challenge - Handwriting adddress**](https://www.kaggle.com/datasets/hariwh0/cinnamon-ai-handwritten-addresses) and [**UIT-HWDB**](https://github.com/hieunghia-pat/UIT-HWDB-dataset)[1] . Each handwriting image has been analyzed and annotated using advanced Visual Question Answering (VQA) techniques to produce a comprehensive dataset.
There is a set of over **8,700** labels, detailed descriptions and query-based questions and answers generated by the Gemini 1.5 Flash model, currently Google's leading model on the [WildVision Arena Leaderboard](https://huggingface.co/spaces/WildVision/vision-arena). This results in a richly annotated dataset, ideal for various educational and research applications.
Please give us a like ❤️ if you find it useful !
<div align="center">
<img src="https://i.pinimg.com/736x/f2/47/f2/f247f201ea9a29d6640fcf27ea79acc6.jpg" width="400"/>
</div>
Label
```
BẢN CHẤT CỦA THÀNH CÔNG Đã bao giờ bạn tự hỏi thành công là gì mà bao kẻ bỏ cả cuộc đời mình theo đuổi?
Phải chăng đó là kết quả hoàn hảo trong công việc, sự chính xác đến từng chi tiết?
Hay đó là cách nói khác của từ thành đạt, nghĩa là có được một cuộc sống giàu sang, được mọi người nể phục?
Vậy thì bạn hãy dành chút thời gian để lặng mình suy ngẫm. Cuộc sống sẽ chỉ cho bạn có những người đạt được thành công theo một cách giản dị đến bất ngờ.
```
Description
```
Bức ảnh chụp một đoạn văn bản viết tay với tiêu đề "Bản chất của thành công".
Nội dung đoạn văn bàn luận về bản chất của thành công, đặt ra câu hỏi về định nghĩa của thành công và
khẳng định cuộc sống sẽ chỉ cho bạn những người đạt được thành công theo một cách giản dị đến bất ngờ.
```
QnA
```
[
{ "role": "user", "content": "Đoạn văn bản này nói về điều gì?" },
{ "role": "assistant", "content": "Đoạn văn bản này nói về bản chất của thành công." },
{ "role": "user", "content": "Theo đoạn văn, thành công là gì?" },
{ "role": "assistant", "content": "Theo đoạn văn, thành công là kết quả hoàn hảo trong công việc, sự chính xác đến từng chi tiết, hoặc là có được một cuộc sống giàu sang, được mọi người nể phục." },
{ "role": "user", "content": "Tác giả muốn nhắn nhủ điều gì qua đoạn văn này?" },
{ "role": "assistant", "content": "Tác giả muốn nhắn nhủ rằng cuộc sống sẽ chỉ cho bạn những người đạt được thành công theo một cách giản dị đến bất ngờ." },
{ "role": "user", "content": "Bạn có đồng ý với quan điểm của tác giả về thành công không?" },
{ "role": "assistant", "content": "Câu hỏi này không có câu trả lời chính xác, tùy thuộc vào quan điểm của mỗi người." },
{ "role": "user", "content": "Bạn nghĩ thành công là gì?" },
{ "role": "assistant", "content": "Câu hỏi này không có câu trả lời chính xác, tùy thuộc vào quan điểm của mỗi người." } ]
```
<div style="display: grid; grid-template-columns: repeat(8, 150px); grid-gap: 10px;">
<img src="https://i.pinimg.com/736x/92/13/13/9213131047b46a10ad5392b21e6d10f3.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/736x/81/90/40/8190401c2b14a32bc0a34f2857b5b219.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/736x/9e/27/dd/9e27ddc0086edad67b095b599d6ceda1.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/736x/a1/33/33/a13333ec8f44fdc710028506e55d2a4a.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/736x/81/a7/e6/81a7e64979fcfcabd327c3fe23d9c808.jpg" style="width: 150px;">
</div>
# Cite
```
@misc{doan2024vintern1befficientmultimodallarge,
title={Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese},
author={Khang T. Doan and Bao G. Huynh and Dung T. Hoang and Thuc D. Pham and Nhat H. Pham and Quan T. M. Nguyen and Bang Q. Vo and Suong N. Hoang},
year={2024},
eprint={2408.12480},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2408.12480},
}
```
# References
[1] Nguyen, N.H., Vo, D.T. and Van Nguyen, K., 2022, December. UIT-HWDB: Using Transferring Method to Construct A Novel Benchmark for Evaluating Unconstrained Handwriting Image Recognition in Vietnamese. In 2022 RIVF International Conference on Computing and Communication Technologies (RIVF) (pp. 659-664). IEEE.
# 数据集概览
本数据集源自数据集**[Cinnamon AI挑战赛-手写地址](https://www.kaggle.com/datasets/hariwh0/cinnamon-ai-handwritten-addresses)**与**[UIT-HWDB](https://github.com/hieunghia-pat/UIT-HWDB-dataset)**[1]的训练划分集中的1252张越南语手写图像。本研究借助先进的视觉问答(Visual Question Answering, VQA)技术对每一张手写图像进行分析与标注,并结合谷歌当前在WildVision Arena排行榜上的领先模型**Gemini 1.5 Flash**生成的超8700条标签、详细描述及基于查询的问答对,最终构建为内容丰富的标注数据集,可适配各类教育与研究应用场景。
若您认为本数据集具有参考价值,恳请点赞支持 ❤️!
<div align="center">
<img src="https://i.pinimg.com/736x/f2/47/f2/f247f201ea9a29d6640fcf27ea79acc6.jpg" width="400"/>
</div>
## 标签
成功的本质
你是否曾好奇,究竟何为成功,以至于无数人耗尽一生追寻?
难道成功是工作中尽善尽美的结果,是对每一处细节都精益求精的精准?
抑或是“功成名就”的另一种诠释——即拥有富足优渥的生活,获得他人的敬仰与钦佩?
那么不妨抽出片刻,静心思索。生活总会以出人意料的朴素方式,向你展示那些达成成功的人们。
## 描述
本图像为一段手写文本,标题为“成功的本质”。
该文本围绕成功的本质展开论述,提出了关于成功定义的疑问,并阐明生活总会以出人意料的朴素方式,向人们展示达成成功的途径。
## 问答对
[
{ "role": "user", "content": "这段文本讲述了什么内容?" },
{ "role": "assistant", "content": "这段文本围绕成功的本质展开论述。" },
{ "role": "user", "content": "根据该文本,成功是什么?" },
{ "role": "assistant", "content": "根据该文本,成功可以是工作中尽善尽美的结果、对每一处细节都精益求精的精准,或是拥有富足优渥的生活并获得他人的敬仰与钦佩。" },
{ "role": "user", "content": "作者通过这段文本想要传达什么信息?" },
{ "role": "assistant", "content": "作者想要传达的是,生活总会以出人意料的朴素方式,向人们展示达成成功的途径。" },
{ "role": "user", "content": "你是否同意作者关于成功的观点?" },
{ "role": "assistant", "content": "该问题并无标准答案,因人而异。" },
{ "role": "user", "content": "你认为成功是什么?" },
{ "role": "assistant", "content": "该问题并无标准答案,因人而异。" }
]
<div style="display: grid; grid-template-columns: repeat(8, 150px); grid-gap: 10px;">
<img src="https://i.pinimg.com/736x/92/13/13/9213131047b46a10ad5392b21e6d10f3.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/736x/81/90/40/8190401c2b14a32bc0a34f2857b5b219.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/736x/9e/27/dd/9e27ddc0086edad67b095b599d6ceda1.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/736x/a1/33/33/a13333ec8f44fdc710028506e55d2a4a.jpg" style="width: 150px;">
<img src="https://i.pinimg.com/736x/81/a7/e6/81a7e64979fcfcabd327c3fe23d9c808.jpg" style="width: 150px;">
</div>
# 引用
@misc{doan2024vintern1befficientmultimodallarge,
title={Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese},
author={Khang T. Doan and Bao G. Huynh and Dung T. Hoang and Thuc D. Pham and Nhat H. Pham and Quan T. M. Nguyen and Bang Q. Vo and Suong N. Hoang},
year={2024},
eprint={2408.12480},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2408.12480},
}
# 参考文献
[1] Nguyen, N.H., Vo, D.T. and Van Nguyen, K., 2022, December. UIT-HWDB: Using Transferring Method to Construct A Novel Benchmark for Evaluating Unconstrained Handwriting Image Recognition in Vietnamese. In 2022 RIVF International Conference on Computing and Communication Technologies (RIVF) (pp. 659-664). IEEE.
提供机构:
maas
创建时间:
2025-01-08



