Bangla-Bayanno-Numeric

Hugging Face2025-08-22 更新2025-08-23 收录

下载链接：

https://huggingface.co/datasets/Remian9080/Bangla-Bayanno-Numeric

下载链接

链接失效反馈

官方服务：

资源简介：

Bangla-Bayanno是一个孟加拉语的开放式视觉问答（VQA）数据集，它包含52650个问题-答案对，跨越4750多张图片。数据集支持极性（是/否）、数量（数字）和名义（简短描述）三种答案类型，并采用多语言大型语言模型辅助的翻译精炼流程来确保问题和答案的准确性。该数据集的目标是促进低资源多模态学习和包容性AI系统的发展。

Bangla-Bayanno is a Bengali open-ended visual question answering (VQA) dataset containing 52,650 question-answer pairs spanning over 4,750 images. The dataset supports three types of answers: polar (yes/no), numerical (digit-based), and nominal (short descriptive). It employs a multilingual large language model-assisted translation and refinement workflow to guarantee the accuracy of both questions and answers. The primary goal of this dataset is to facilitate the advancement of low-resource multimodal learning and inclusive AI systems.

创建时间：

2025-08-22

搜集汇总

数据集介绍

构建方式

在低资源多模态人工智能研究领域，Bangla-Bayanno-Numeric数据集通过创新的多语言大语言模型辅助翻译优化流程构建而成。该流程首先从源数据集中筛选出包含数值答案的视觉问答对，随后采用自动化翻译与人工校验相结合的方式，将问题与答案精准转化为孟加拉语，有效避免了传统人工标注中的翻译歧义与错误，确保了语言表达的清晰度与准确性。

使用方法

研究人员可通过Git LFS工具克隆数据集至本地，利用提供的Python代码示例快速加载问答对与对应图像。典型工作流包括解析JSON文件获取问题-答案对，根据图像路径调用PIL库可视化图片，并结合多模态模型进行端到端训练或评估。该数据集适用于视觉问答模型开发、低资源语言处理研究及跨语言多模态学习任务，所有使用需遵循CC BY 4.0许可协议并规范引用原始文献。

背景与挑战

背景概述

视觉问答作为多模态人工智能研究的核心领域，长期面临低资源语言数据匮乏的困境。Bangla-Bayanno-Numeric数据集由Rakibul Hasan等人于2025年创建，专门针对孟加拉语这一使用广泛但资源稀缺的语言环境。该数据集基于COCO图像库构建，包含6,484组数值型问答对和2,517张图像，旨在推动多模态模型在低资源语言场景下的数值推理能力发展，为构建包容性人工智能系统提供重要基准。

当前挑战

该数据集主要解决视觉问答领域中低资源语言的数值推理挑战，包括数字识别、数量统计和算术运算等具体任务。构建过程中面临孟加拉语独特文字系统的标注难题，需要通过多语言大模型辅助的翻译优化流程来保证问答对的准确性和自然度。同时还需克服跨文化语境下图像内容与语言表达的对齐问题，确保数值类答案与视觉内容的精确匹配。

常用场景

经典使用场景

在低资源多模态学习领域，Bangla-Bayanno-Numeric数据集为孟加拉语视觉问答研究提供了重要基准。该数据集通过52,650个高质量问答对与4,750余张图像的组合，支持模型进行端到端的数值型答案预测训练。研究者通常利用该数据集构建跨模态理解模型，通过图像特征提取与孟加拉语文本理解的深度融合，探索视觉内容与语言问答之间的关联机制。

解决学术问题

该数据集有效解决了孟加拉语多模态研究中数据稀缺的核心问题，为低资源语言社区的视觉问答任务提供了标准化评估框架。通过涵盖数值型答案的多样化标注，它推动了跨语言视觉理解模型的发展，弥补了传统VQA数据集在语言多样性方面的不足。其高质量的多模态标注为研究社区提供了探索语言与视觉融合机制的宝贵资源，促进了包容性人工智能系统的构建。

实际应用

在实际应用层面，该数据集为孟加拉语地区的智能教育辅助系统提供了关键技术支撑。基于数值型视觉问答的能力，可开发面向数学教育、儿童认知训练等场景的交互式应用。同时，在无障碍技术领域，该数据集有助于构建视障人士辅助系统，通过孟加拉语问答实现对视觉内容的语义理解与描述，提升数字服务的包容性与可及性。

数据集最近研究