five

Viet-Doc-VQA

收藏
魔搭社区2025-12-04 更新2025-01-11 收录
下载链接:
https://modelscope.cn/datasets/5CD-AI/Viet-Doc-VQA
下载链接
链接失效反馈
官方服务:
资源简介:
# Dataset Overview The **Document VAQ dataset** was collected from **51,856** pages of Vietnamese 🇻🇳 textbooks( Sách Bộ GDĐT, Cánh Diều, Chân trời sáng tạo, Kết nối tri thức), spanning all subjects from grades 1 to 12. Each page has been analyzed and annotated using advanced Visual Question Answering (VQA) techniques to produce a comprehensive dataset. There is a set of **310,952** detailed descriptions and query-based questions and answers generated by the Gemini 1.5 Flash model, currently Google's leading model on the [WildVision Arena Leaderboard](https://huggingface.co/spaces/WildVision/vision-arena). This results in a richly annotated dataset, ideal for various educational and research applications. The next part of our dataset release can be found here [Viet-Doc-VQA-II](https://huggingface.co/datasets/5CD-AI/Viet-Doc-VQA-II) Please give us a like ❤️ if you find it useful ! **Subjects included:** Toán học 📐, Ngữ văn 📚, Tiếng Anh 🇬🇧, Vật lý ⚛️, Hóa học 🧪, Sinh học 🌱, Lịch sử 📜, Địa lý 🌍, Giáo dục công dân 🏫, Tin học 💻, Công nghệ 🛠️, Âm nhạc 🎵, Mỹ thuật 🎨, Thể dục ⚽, .... <div align="center"> <img src="https://i.pinimg.com/736x/04/43/51/044351884751a39565208e3d930cdc1f.jpg" width="500"/> </div> Description ``` Bức ảnh là một trang sách với tiêu đề "ĐẤT NƯỚC MẾN YÊU", bên dưới là chữ "Hai Bà Trưng" in đậm, được tô màu đỏ. Phía trên là dòng chữ "Tuần 30 Bài 1", "Tuần 30" được tô nền vàng, "Bài 1" được in trong hình tròn màu vàng với hình mặt trời nhỏ bên cạnh. Phần nội dung chính của trang sách gồm hai phần. Phần đầu là phần khơi động với dòng chữ "Khởi động" được in đậm. Dòng chữ bên dưới là "Trao đổi về những điều em thấy trong tranh dưới đây theo gợi ý:" Có ba ô trống để điền: "nhân vật", "hành động", "?". Phần tiếp theo là "Khám phá và luyện tập" với số 1 in đậm, kế tiếp là dòng chữ "Đọc và trả lời câu hỏi:" Tiếp theo là phần nội dung của bài học với dòng chữ "Hai Bà Trưng" in đậm, được tô màu xanh da trời. Phần nội dung chính được viết theo dạng liệt kê và gồm một câu: "1. Thuở xưa, nước ta bị giặc ngoại xâm đô hộ. Chúng tháng tay giết hại dân lành, cướp hết ruộng nương màu mỡ. Chúng bắt dân lên rừng săn thú lạ, xuống biển mò ngọc trai, khiến bao người thiệt mạng vì hộ bảo, cá sấu, thú dữ... Lòng dân oán hận ngút trời, chỉ chờ dịp vùng lên đánh đuổi quân xâm lược." Bên cạnh phần chữ là hình minh họa về Hai Bà Trưng cưỡi voi, cầm gươm dẫn quân đánh giặc. Dưới cùng bên trái là số 92.' ``` QnA ``` [{ "role": "user", "content": "Nội dung chính của phần 'Khởi động' là gì?" }, { "role": "assistant", "content": "Phần 'Khởi động' hướng dẫn người đọc trao đổi về những điều em thấy trong tranh dưới đây theo gợi ý: nhân vật, hành động, ... Chắc hẳn phần tranh mà sách nhắc đến là hình ảnh minh họa cho bài học về Hai Bà Trưng, dẫn dắt người đọc chú ý vào nhân vật, hành động của hai Bà Trưng trong tranh." }, { "role": "user", "content": "Nội dung của bài học là gì?" }, { "role": "assistant", "content": "Bài học này nói về cuộc kháng chiến chống giặc ngoại xâm của Hai Bà Trưng. Nội dung chính xoay quanh việc giặc ngoại xâm đô hộ nước ta, giết hại dân lành, cướp hết ruộng nương màu mỡ, bắt dân lên rừng săn thú lạ, xuống biển mò ngọc trai, khiến bao người thiệt mạng vì hổ báo, cá sấu, thú dữ... Lòng dân oán hận ngút trời, chỉ chờ dịp vùng lên đánh đuổi quân xâm lược." }, { "role": "user", "content": "Hình ảnh minh họa cho bài học này là gì?" }, { "role": "assistant", "content": "Hình ảnh minh họa cho bài học này là hình ảnh Hai Bà Trưng cưỡi voi, cầm gươm dẫn quân đánh giặc. Hình ảnh thể hiện sự dũng mãnh, quyết tâm đánh đuổi giặc ngoại xâm của hai Bà Trưng." }, { "role": "user", "content": "Số 92 ở cuối trang sách có ý nghĩa gì?" }, { "role": "assistant", "content": "Số 92 ở cuối trang sách có thể là số thứ tự trang sách, cho biết trang này là trang 92 trong cuốn sách." }, { "role": "user", "content": "Có những chi tiết gì đặc biệt trong trang sách này?" }, { "role": "assistant", "content": "Trang sách này có sử dụng nhiều màu sắc, hình ảnh minh họa sinh động, phần nội dung được viết theo dạng liệt kê dễ hiểu. Ngoài ra, trang sách còn sử dụng các câu hỏi gợi mở để kích thích người đọc suy nghĩ và tìm hiểu thêm về nội dung bài học." }] ``` <div style="display: grid; grid-template-columns: repeat(7, 100px); grid-gap: 10px;"> <img src="https://i.pinimg.com/736x/9c/7c/89/9c7c89b8ea77975e0fa0ff53e510b818.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/736x/73/50/85/7350856513472341bf6609c65b318921.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/736x/5c/b9/34/5cb9344b6aec734388c15a3e6b1381a9.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/736x/0e/bb/79/0ebb79ae6ef8eda3a5b870b41e52e289.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/736x/29/1b/b0/291bb05bf08baba06d90714e6d15e283.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/736x/3c/e6/50/3ce650e3f7c25ce5415a8f9501c4c658.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/474x/30/52/b3/3052b3478c50bd46e130ff8b99103720.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/474x/01/8f/e3/018fe36050965bde3a18ff8ecbb0c08b.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/474x/af/fe/bf/affebfb2aef0a4d9dafe7b933d1200e2.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/474x/c5/bf/a4/c5bfa492b77fda019d3e51aae757e406.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/474x/8f/a1/72/8fa17232545830be82f0260f2dc498e8.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/474x/40/75/dc/4075dc0b9e7aed04241c14437bf4c0f3.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/474x/eb/8a/37/eb8a37dfbdd5c8435e3fc6fe353b88cb.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/474x/c3/e3/83/c3e383f44de98d8b1a37e975cddd4204.jpg" style="width: 100px;"> </div> # Cite ``` @misc{doan2024vintern1befficientmultimodallarge, title={Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese}, author={Khang T. Doan and Bao G. Huynh and Dung T. Hoang and Thuc D. Pham and Nhat H. Pham and Quan T. M. Nguyen and Bang Q. Vo and Suong N. Hoang}, year={2024}, eprint={2408.12480}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2408.12480}, } ```

# 数据集概览 **Document VAQ数据集** 采集自51856页越南语文本课本,涵盖越南教育部统编教材、《风帆》《创新天地》《知识互联》系列课本,覆盖1至12年级全学科内容。研究团队采用先进的视觉问答(Visual Question Answering,VQA)技术对每一页内容进行分析与标注,最终构建出该综合数据集。 该数据集包含由Gemini 1.5 Flash模型生成的310952条精细描述、基于查询的问答对。Gemini 1.5 Flash是谷歌当前在WildVision竞技场排行榜(链接:https://huggingface.co/spaces/WildVision/vision-arena)上的领先模型。这使得本数据集拥有丰富的标注信息,适用于各类教育与研究场景。 本数据集的后续版本可通过链接[Viet-Doc-VQA-II](https://huggingface.co/datasets/5CD-AI/Viet-Doc-VQA-II)获取。 若本数据集对您有所帮助,恳请点赞支持 ❤️ **涵盖学科:** 数学 📐、语文 📚、英语 🇬🇧、物理 ⚛️、化学 🧪、生物 🌱、历史 📜、地理 🌍、公民教育 🏫、信息技术 💻、技术 🛠️、音乐 🎵、美术 🎨、体育 ⚽…… <div align="center"> <img src="https://i.pinimg.com/736x/04/43/51/044351884751a39565208e3d930cdc1f.jpg" width="500"/> </div> ## 内容描述 本图片展示的是一页课本,顶部标题为“亲爱的祖国”,下方是加粗并标红的文字“二征夫人”。页面上方有文字“第30周 第1课”,其中“第30周”带有黄色背景,“第1课”印在黄色圆形框内,旁侧配有小型太阳图案。该课本页面的主体内容分为两部分:第一部分为“导入环节”,其中“导入”字样为加粗格式;其下方文字为“根据提示交流你在下方图片中看到的内容:”,并设有三个填空框,分别对应“人物”“行为”和“?”。第二部分为“探索与练习”,其中数字“1”为加粗格式,后续文字为“阅读并回答问题:”。随后是本课的正文内容,正文标题“二征夫人”为加粗格式,带有天蓝色底色。正文主体采用列表形式,仅包含一句话:“1. 从前,我国遭受外敌入侵并被占领。敌军肆意杀害无辜百姓,掠夺肥沃的农田。他们强迫百姓上山捕猎异兽、下海采集珍珠,致使无数民众因反抗、鳄鱼及野兽等而丧生。民众怨声载道,只等待时机揭竿而起,驱逐入侵之敌。” 文字旁配有二征夫人骑象、持剑率军杀敌的插画。页面左下角标注有数字“92”。 ## 问答对 [{"role": "user", "content": "“导入环节”的核心内容是什么?"}, {"role": "assistant", "content": "“导入环节”引导读者根据提示(人物、行为等)交流对下方图片的观察所得。此处提及的图片应为本课关于二征夫人的插画,旨在引导读者关注插画中二征夫人的形象与行为。"}, {"role": "user", "content": "本课的正文内容是什么?"}, {"role": "assistant", "content": "本课讲述的是二征夫人领导的抗敌斗争。正文核心内容为:从前外敌入侵并占领我国,肆意屠戮百姓、掠夺良田,强迫民众从事危险劳作,致使大量民众丧生,民怨沸腾,民众只待时机成熟便起兵驱逐入侵者。"}, {"role": "user", "content": "本课配套的插画是什么样的?"}, {"role": "assistant", "content": "本课配套插画为二征夫人骑象、持剑率军杀敌的形象,展现了二征夫人英勇决绝、驱逐外敌的精神风貌。"}, {"role": "user", "content": "页面左下角的数字“92”有何含义?"}, {"role": "assistant", "content": "该数字应为课本的页码,代表此页为第92页。"}, {"role": "user", "content": "该课本页面有哪些特殊设计细节?"}, {"role": "assistant", "content": "该页面运用了多种色彩与排版设计:包括彩色背景、特殊边框的标题文字,采用列表形式的正文便于阅读,还设置了引导性的填空互动环节,以激发读者思考并加深对课文内容的理解。"}] <div style="display: grid; grid-template-columns: repeat(7, 100px); grid-gap: 10px;"> <img src="https://i.pinimg.com/736x/9c/7c/89/9c7c89b8ea77975e0fa0ff53e510b818.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/736x/73/50/85/7350856513472341bf6609c65b318921.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/736x/5c/b9/34/5cb9344b6aec734388c15a3e6b1381a9.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/736x/0e/bb/79/0ebb79ae6ef8eda3a5b870b41e52e289.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/736x/29/1b/b0/291bb05bf08baba06d90714e6d15e283.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/736x/3c/e6/50/3ce650e3f7c25ce5415a8f9501c4c658.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/474x/30/52/b3/3052b3478c50bd46e130ff8b99103720.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/474x/01/8f/e3/018fe36050965bde3a18ff8ecbb0c08b.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/474x/af/fe/bf/affebfb2aef0a4d9dafe7b933d1200e2.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/474x/c5/bf/a4/c5bfa492b77fda019d3e51aae757e406.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/474x/8f/a1/72/8fa17232545830be82f0260f2dc498e8.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/474x/40/75/dc/4075dc0b9e7aed04241c14437bf4c0f3.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/474x/eb/8a/37/eb8a37dfbdd5c8435e3fc6fe353b88cb.jpg" style="width: 100px;"> <img src="https://i.pinimg.com/474x/c3/e3/83/c3e383f44de98d8b1a37e975cddd4204.jpg" style="width: 100px;"> </div> ## 引用 @misc{doan2024vintern1befficientmultimodallarge, title={Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese}, author={Khang T. Doan and Bao G. Huynh and Dung T. Hoang and Thuc D. Pham and Nhat H. Pham and Quan T. M. Nguyen and Bang Q. Vo and Suong N. Hoang}, year={2024}, eprint={2408.12480}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2408.12480}, }
提供机构:
maas
创建时间:
2025-01-08
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作