five

Viet-Sketches-VQA

收藏
魔搭社区2025-11-06 更新2025-01-11 收录
下载链接:
https://modelscope.cn/datasets/5CD-AI/Viet-Sketches-VQA
下载链接
链接失效反馈
官方服务:
资源简介:
# Dataset Overview This dataset is was created from **3088** Vietnamese Sketches 🇻🇳 images from books. Each image has been analyzed and annotated using advanced Visual Question Answering (VQA) techniques to produce a comprehensive dataset. There is a set of **18,000** detailed descriptions, and query-based questions and answers generated by the Gemini 1.5 Flash model, currently Google's leading model on the [WildVision Arena Leaderboard](https://huggingface.co/spaces/WildVision/vision-arena). This results in a richly annotated dataset, ideal for various educational and research applications. Please give us a like ❤️ if you find it useful ! <div align="center"> <img src="https://i.pinimg.com/474x/96/da/f6/96daf6882d71aaa51c4eec8ec26a5ff5.jpg" width="400"/> </div> Description ``` Bức ảnh bao gồm 30 hình vẽ được sắp xếp thành 6 hàng, mỗi hàng có 5 hình vẽ. Các hình vẽ được đánh số từ 1 đến 30, theo thứ tự từ trái sang phải và từ trên xuống dưới. Các hình vẽ đa dạng, bao gồm các đồ vật, động vật, con người, và các biểu tượng trừu tượng. Phong cách vẽ đơn giản, sử dụng nét vẽ mảnh, tạo cảm giác hồn nhiên và ngây thơ. ``` QnA ``` [ { "role": "user", "content": "Hình vẽ số 3 là gì và bạn có suy đoán gì về nó?" }, { "role": "assistant", "content": "Hình vẽ số 3 là một tấm bảng với dòng chữ \"Happy Birthday\" được viết bằng tiếng Nhật. Có thể suy đoán rằng đây là một hình vẽ về một tấm bảng chúc mừng sinh nhật, tạo nên một bầu không khí vui tươi và ấm áp." }, { "role": "user", "content": "Hình vẽ số 8 và 9 mô tả những gì? Có mối liên hệ nào giữa chúng?" }, { "role": "assistant", "content": "Hình vẽ số 8 là một con ong, hình vẽ số 9 là một con gấu. Mối liên hệ giữa chúng có thể là cả hai đều là động vật, một là côn trùng, một là động vật có vú, và có thể biểu thị sự tương phản giữa thế giới côn trùng và thế giới động vật." }, { "role": "user", "content": "Hình vẽ số 13 và 14 thể hiện những gì? Ý nghĩa của chúng là gì?" }, { "role": "assistant", "content": "Hình vẽ số 13 là một chiếc lược, hình vẽ số 14 là một thanh kiếm. Cả hai đều là những vật dụng quen thuộc, nhưng lại đại diện cho hai khía cạnh đối lập: một là sự gọn gàng, chăm chút bản thân, còn một là sự mạnh mẽ, uy quyền." }, { "role": "user", "content": "Hình vẽ số 19 và 20 có điểm gì chung?" }, { "role": "assistant", "content": "Hình vẽ số 19 là một con gà, hình vẽ số 20 là một bàn tay. Điểm chung của chúng là cả hai đều là hình ảnh về một sinh vật sống, một là động vật, một là bộ phận cơ thể người. Chúng có thể thể hiện sự tương quan giữa thế giới động vật và thế giới con người." }, { "role": "user", "content": "Hình vẽ số 27, 28, 29 và 30 miêu tả những gì? Bạn nghĩ chúng có liên kết với nhau như thế nào?" }, { "role": "assistant", "content": "Hình vẽ số 27 là một chiếc bát, số 28 là một bụi cây, số 29 là một con người mặc áo choàng, số 30 là một con rắn. Có thể chúng là những hình ảnh độc lập, nhưng cũng có thể được liên kết với nhau bằng một câu chuyện, một ý tưởng hoặc một chủ đề chung nào đó. Chẳng hạn, chúng có thể là những chi tiết trong một cảnh quan thiên nhiên, hoặc là những nhân vật trong một câu chuyện cổ tích." } ] ``` <!-- <div style="display: grid; grid-template-columns: repeat(8, 150px); grid-gap: 10px;"> <img src="examples/image-2.jpg" style="width: 150px;"> <img src="examples/image-3.jpg" style="width: 150px;"> <img src="examples/image-4.jpg" style="width: 150px;"> <img src="examples/image-5.jpg" style="width: 150px;"> <img src="examples/image-6.jpg" style="width: 150px;"> </div> --> # Cite ``` @misc{doan2024vintern1befficientmultimodallarge, title={Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese}, author={Khang T. Doan and Bao G. Huynh and Dung T. Hoang and Thuc D. Pham and Nhat H. Pham and Quan T. M. Nguyen and Bang Q. Vo and Suong N. Hoang}, year={2024}, eprint={2408.12480}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2408.12480}, } ```

# 数据集概览 本数据集取材自3088张来自书籍的越南手绘草图(Vietnamese Sketches)图像。所有图像均通过先进的视觉问答(Visual Question Answering, VQA)技术进行分析与标注,从而构建出该综合性数据集。 数据集包含18000条详细描述,以及由Gemini 1.5 Flash模型生成的基于查询的问答内容——该模型目前是谷歌在[WildVision Arena排行榜](https://huggingface.co/spaces/WildVision/vision-arena)上的旗舰模型。最终得到的标注丰富的数据集,可广泛适用于各类教育与研究场景。 若您觉得本数据集有所帮助,不妨为我们点赞支持! <div align="center"> <img src="https://i.pinimg.com/474x/96/da/f6/96daf6882d71aaa51c4eec8ec26a5ff5.jpg" width="400"/> </div> ### 图像说明 本图像共包含30幅手绘草图,分为6行排列,每行5幅。所有草图按照从左至右、从上至下的顺序依次编号为1至30。 草图内容丰富多样,涵盖各类物品、动物、人物以及抽象符号。其绘画风格简洁明快,以纤细线条勾勒而成,整体洋溢着纯真烂漫的氛围。 ### 问答对(QnA) [ { "role": "user", "content": "第3幅草图是什么?你对此有何推测?" }, { "role": "assistant", "content": "第3幅草图是一块写有日语‘Happy Birthday’字样的标牌。据此可推测,该草图描绘的是一块生日祝福标牌,营造出欢快温馨的氛围。" }, { "role": "user", "content": "第8幅和第9幅草图分别描绘了什么?二者之间有何关联?" }, { "role": "assistant", "content": "第8幅草图为一只蜜蜂,第9幅草图为一只熊。二者的关联在于:它们同属动物范畴,前者为昆虫,后者为哺乳动物,可借此展现昆虫世界与动物世界之间的对比。" }, { "role": "user", "content": "第13幅和第14幅草图展现了什么?它们的寓意是什么?" }, { "role": "assistant", "content": "第13幅草图为一把梳子,第14幅草图为一把剑。二者均为常见物品,却代表着两种对立的特质:前者象征整洁利落、打理自身,后者则代表强悍威严。" }, { "role": "user", "content": "第19幅和第20幅草图有何共同点?" }, { "role": "assistant", "content": "第19幅草图为一只鸡,第20幅草图为一只人手。二者的共同点在于均为活体形象:前者为动物,后者为人体器官,可借此体现动物世界与人类世界之间的关联。" }, { "role": "user", "content": "第27、28、29和30幅草图分别描绘了什么?你认为它们之间是如何关联的?" }, { "role": "assistant", "content": "第27幅草图为一个碗,第28幅草图为一丛植物,第29幅草图为一名身着外袍的人物,第30幅草图为一条蛇。它们或许是彼此独立的形象,但也可能通过某一共同的故事、理念或主题串联起来。例如,它们可以是一处自然景观中的细节,或是一则童话故事中的角色。" } ] # 引用 @misc{doan2024vintern1befficientmultimodallarge, title={Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese}, author={Khang T. Doan and Bao G. Huynh and Dung T. Hoang and Thuc D. Pham and Nhat H. Pham and Quan T. M. Nguyen and Bang Q. Vo and Suong N. Hoang}, year={2024}, eprint={2408.12480}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2408.12480}, }
提供机构:
maas
创建时间:
2025-01-08
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作