myFlickr30k

github2025-07-05 更新2025-07-20 收录

下载链接：

https://github.com/ye-kyaw-thu/myFlickr30k

下载链接

链接失效反馈

官方服务：

资源简介：

该存储库包含Flickr30k数据集字幕的缅甸语翻译。翻译是使用nllb-api生成的，并且我们使用翻译后的数据进行了初步的图像到字幕实验。原始的Flickr30k数据集包含来自Flickr的31,783张图片，以及通过众包创建的158,915个英文字幕（每张图片5个），如论文《From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions》中所述。

This repository contains Burmese translations of the captions for the Flickr30k dataset. The translations were generated using the nllb-api, and preliminary image-to-caption experiments were conducted using the translated data. The original Flickr30k dataset includes 31,783 images from Flickr and 158,915 English captions (5 per image) created through crowdsourcing, as described in the paper 'From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions'.

创建时间：

2025-07-05

原始信息汇总

myFlickr30k数据集概述

数据集简介

包含缅甸语（Burmese）翻译的Flickr30k数据集标题。
翻译工具使用nllb-api。
已进行初步的图像到标题实验。

原始数据集信息

原始Flickr30k数据集包含31,783张来自Flickr的图片。
每张图片有5个英文标题，共计158,915个标题。
标题通过众包方式创建。
原始数据集论文: "From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions"。

当前状态

正在积极开发中。
正在进行自动翻译输出的手动验证和校正。

引用方式

@misc{myFlickr30k_2025, author = {Ye Kyaw Thu}, title = {myFlickr30k}, month = {7}, year = {2025}, url = {https://github.com/ye-kyaw-thu/myFlickr30k}, note = {Accessed Date: yyyy-mm-dd}, institution = {LU Lab., Myanmar} }

搜集汇总

数据集介绍

构建方式

在跨语言视觉语义理解领域，myFlickr30k数据集基于经典Flickr30k框架进行创新性扩展。该数据集通过NLLB-API机器翻译系统，将原始英文描述自动转化为缅甸语文本，并辅以人工校验流程确保翻译质量。原始数据包含31,783张Flickr平台采集的图像及158,915条众包英文标注，构建过程严格遵循视觉语义推理的学术标准。

特点

作为东南亚语言资源的重要补充，该数据集最显著的特征是实现了视觉内容与缅甸语描述的跨模态对齐。每条图像配备五组平行标注，既保留原始英文文本的语义密度，又通过机器翻译与人工修正的双重处理，确保了缅甸语表达的准确性与自然度。数据集当前处于动态优化阶段，持续完善翻译质量与标注规范。

使用方法

研究者可利用该数据集开展缅甸语环境下的多模态学习实验，包括但不限于图像描述生成、跨语言检索等任务。使用时应遵循原始Flickr30k的数据划分标准，注意区分机器翻译结果与人工校验部分的差异。通过GitHub仓库提供的元数据，用户可便捷获取双语对照标注，建议结合NLLB等现代机器翻译系统进行对比研究。

背景与挑战

背景概述

myFlickr30k数据集是缅甸语版本的Flickr30k多模态数据集，由缅甸语言处理专家Ye Kyaw Thu及其团队于2025年创建。该数据集基于2014年发布的经典Flickr30k数据集构建，原数据集包含31,783张Flickr平台采集的图像及158,915条众包英文描述。作为东南亚低资源语言研究的代表性工作，myFlickr30k通过神经机器翻译技术将英文描述转化为缅甸语，为跨语言图像描述生成任务提供了重要基准数据。这项工作显著促进了缅甸语计算机视觉与自然语言处理交叉领域的发展。

当前挑战

在领域问题层面，myFlickr30k致力于解决低资源语言环境下的视觉语言对齐难题，其核心挑战在于缅甸语复杂的形态结构和稀缺的标注资源导致跨模态表征学习困难。数据集构建过程中，自动翻译产生的语义偏差和缅甸语特有的敬语体系对人工校验提出极高要求。神经机器翻译模型在文化特定概念上的转换准确率不足，需要领域专家进行多轮语义校准。此外，原始图像描述中的英语文化隐喻如何恰当本地化，也是构建过程中持续面临的语言学挑战。

常用场景

经典使用场景

在跨模态信息检索领域，myFlickr30k数据集因其缅甸语翻译的视觉描述而成为研究多语言图像标注的重要资源。该数据集通过提供与原始Flickr30k图像对应的缅甸语字幕，为研究者探索非拉丁语系的视觉语言理解提供了独特实验平台。典型应用包括训练端到端的神经网络模型，以验证低资源语言在图像描述生成任务中的表现。

衍生相关工作

基于该数据集衍生的研究已催生出若干创新成果，包括改进的神经机器翻译模型在低资源语言上的适配方法，以及针对东南亚语言特性的视觉语义嵌入算法。部分工作进一步扩展了数据集的标注维度，如添加细粒度实体标记或情感标签，推动了多模态学习在东南亚语言环境中的技术落地。

数据集最近研究