Bangla-Bayanno-Polar

Hugging Face2025-08-22 更新2025-08-23 收录

下载链接：

https://huggingface.co/datasets/Remian9080/Bangla-Bayanno-Polar

下载链接

链接失效反馈

官方服务：

资源简介：

Bangla-Bayanno是一个大规模、高质量的开放式孟加拉语视觉问答数据集，包含52,650个问题-答案对，涵盖4,750多张图片，包括极性（是/否）、定量（数字）和名义（简短描述性）答案类型。

创建时间：

2025-08-22

搜集汇总

数据集介绍

构建方式

在视觉问答研究领域，低资源语言的数据稀缺问题长期制约着多模态模型的发展。Bangla-Bayanno-Polar数据集通过创新的多语言大语言模型辅助翻译流程构建而成，首先从英文源数据中筛选出适合二元问答的样本，随后采用自动化翻译与人工校验相结合的方式，将问题与答案精准转化为孟加拉语，最终形成包含19,619个质控问答对的高质量极性问答子集。

特点

该数据集显著特征体现在其专注于极性问答类型，所有问题均设计为可通过“是”或“否”回答的二元形式，极大简化了模型输出空间。数据覆盖4,163张图像，每张图像可能对应多个问题，增强了数据的多样性和实用性。作为孟加拉语首个大规模极性视觉问答基准，其结构化JSON格式与标准化图像路径为研究者提供了便捷的数据访问接口。

使用方法

研究者可通过Git LFS克隆仓库获取图像文件与QA标注数据，利用内置JSON解析脚本快速加载问答对与对应图像。典型使用流程包括读取qa.json文件获取问题ID、图像路径及孟加拉语问答文本，配合PIL库可视化图像样本。该数据集适用于训练和评估视觉语言模型在二元问答任务上的性能，尤其适合低资源语言多模态学习研究。

背景与挑战

背景概述

视觉问答作为多模态人工智能研究的核心领域，长期面临低资源语言数据匮乏的困境。Bangla-Bayanno数据集由Rakibul Hasan等人于2025年创建，专门针对孟加拉语这一使用广泛但资源稀缺的语言，构建了包含52,650个问答对的大规模视觉问答基准。该数据集依托多语言大语言模型辅助的翻译优化流程，覆盖极性判断、数值计算和名词性描述三类答案形式，旨在推动包容性人工智能系统的发展，并为低资源多模态学习提供关键基础设施。

当前挑战

该数据集首要解决的是孟加拉语视觉问答任务中存在的语言资源稀缺性与模型泛化能力不足的挑战，具体表现为标注数据有限、答案类型单一以及跨模态对齐困难等问题。在构建过程中，研究团队需克服人工标注误差与机器翻译歧义性带来的质量隐患，通过设计多阶段精炼流程确保问答对的准确性与自然度，同时还需处理源图像与翻译文本间的文化适配性挑战，以维持视觉语义一致性。

常用场景

经典使用场景

在低资源多模态学习研究中，Bangla-Bayanno-Polar数据集为孟加拉语视觉问答任务提供了标准化评估基准。研究者通常利用该数据集训练和测试跨模态理解模型，通过图像与二元问题的关联分析，评估模型对视觉内容的语义解析能力。其精心设计的极性问答结构使得模型在判断真假值任务中展现出明显的性能差异，为算法优化提供了明确方向。

解决学术问题

该数据集有效解决了孟加拉语多模态研究领域的数据稀缺性问题，为低资源语言社区的视觉语言理解研究提供了重要基础设施。通过构建大规模高质量的极性问答对，它突破了传统人工标注的局限性，使得研究者能够系统探究跨语言视觉推理模型的泛化能力。这一资源显著促进了语言平等性在人工智能领域的实现，为包容性AI系统开发奠定了数据基础。

衍生相关工作

基于该数据集衍生的经典研究包括多模态预训练模型的跨语言迁移学习框架，如基于BERT架构的孟加拉语视觉语言模型BayannoBERT。研究者还开发了专门针对极性问答的注意力机制模型，通过双流网络结构分别处理视觉特征和语言特征。这些工作显著推动了低资源语言多模态理解的技术发展，并催生了更多南亚语言视觉数据集的创建浪潮。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集