COCO-Urdu

arXiv2025-09-11 更新2025-11-24 收录

下载链接：

https://hf-mirror.com/datasets/umairhassan02/urdu-translated-coco-captions-subset

下载链接

链接失效反馈

官方服务：

资源简介：

COCO-Urdu是一个大规模的乌尔都语图像-字幕数据集，由MS COCO数据集翻译而来，包含5.92万张图片和31.9万条乌尔都语字幕。该数据集通过分层抽样技术，保留了原始数据集的类别分布。字幕翻译使用了SeamlessM4T v2模型，并通过一个混合多模态质量评估框架进行了验证，该框架整合了COMET-Kiwi、CLIP-based相似性和BERTScore等技术。COCO-Urdu是目前公开可用的最大的乌尔都语字幕数据集，旨在减少多模态研究中的语言偏见，为包容性的视觉-语言研究奠定基础。

COCO-Urdu is a large-scale Urdu image-captioning dataset translated from the MS COCO dataset, containing 59,200 images and 319,000 Urdu captions. This dataset preserves the class distribution of the original dataset through stratified sampling techniques. The caption translations were generated using the SeamlessM4T v2 model and validated via a hybrid multimodal quality assessment framework, which integrates technologies including COMET-Kiwi, CLIP-based similarity, and BERTScore. As the largest publicly available Urdu image-captioning dataset to date, COCO-Urdu aims to reduce language bias in multimodal research and lay a foundation for inclusive vision-language research.

创建时间：

2025-09-11

搜集汇总

数据集介绍

构建方式

在视觉语言研究领域，针对低资源语言的语料库构建面临严峻挑战。COCO-Urdu通过分层抽样从MS COCO数据集中选取59,000张图像，采用零样本翻译技术将原始英文描述转化为乌尔都语。翻译过程依托SeamlessM4T v2模型实现，并通过混合质量评估框架对319,000条译文进行多轮迭代优化，确保语义准确性与视觉对齐度。

使用方法

该数据集支持多种视觉语言任务的应用开发，包括图像描述生成、跨模态检索和多模态推理系统构建。研究人员可直接加载经过质量验证的图像-文本对进行模型训练，利用其平衡的类别分布提升模型泛化能力。对于特定应用场景，可参考附带的混合质量评估流程对生成结果进行自动化验证，或基于分块并行处理架构实现大规模数据的高效处理。

背景与挑战

背景概述

在视觉与语言融合的多模态研究领域，资源匮乏语言长期面临数据稀缺的困境。COCO-Urdu数据集由独立研究员Umair Hassan于2025年创建，旨在解决乌尔都语（全球使用人口超2.5亿）在多模态研究中系统性缺失的问题。该数据集基于MS-COCO框架，通过分层采样构建包含5.9万图像与31.9万乌尔都语描述的大规模语料，采用零样本翻译与混合质量评估框架，为低资源语言的视觉语言系统开发奠定基础。

当前挑战

构建过程需应对双重挑战：在领域问题层面，需克服乌尔都语图像描述任务中存在的语义漂移与视觉对齐难题，传统机器翻译易导致文化语境失真；在技术实现层面，需设计融合COMET-Kiwi翻译质量评估、CLIP视觉语义对齐与BERTScore回译验证的混合质量评估体系，通过迭代优化低质量描述确保跨模态一致性，同时规避分层采样可能引发的类别分布偏差。

常用场景

经典使用场景

在跨模态人工智能研究中，COCO-Urdu数据集为乌尔都语视觉语言任务提供了关键资源。其经典应用场景包括图像描述生成模型的训练与评估，通过结合分层采样策略与混合质量评估框架，该数据集能够有效支持多模态对齐研究。研究者可利用其31.9万条经过视觉语义双重验证的乌尔都语描述，开展零样本翻译质量分析与跨语言检索系统开发，为低资源语言的多模态学习建立标准化基准。

解决学术问题

该数据集通过构建大规模乌尔都语图像-文本对，直接应对低资源语言在多模态研究中的数据稀缺困境。其创新性地融合COMET-Kiwi翻译质量评估、基于CLIP的视觉对齐度检测与回译语义一致性验证，系统解决了机器翻译中的语义漂移与视觉失配问题。这种混合质量评估机制为多语言视觉语言模型提供了可扩展的验证方案，显著降低了传统方法对人工标注的依赖，推动了跨语言偏见消减研究的发展。

实际应用

在实际应用层面，COCO-Urdu为乌尔都语地区的智能服务系统提供了核心数据支撑。基于该数据集训练的视觉语言模型可应用于教育科技领域的多模态课件生成、辅助技术中的场景描述系统，以及文化传播领域的跨语言内容创作。其高质量的双语对齐特性尤其适用于开发面向南亚地区的电商图像搜索、社交媒体内容审核等实际场景，为2.5亿乌尔都语使用者提供更包容的技术服务。

数据集最近研究