MELLA

Name: MELLA
Creator: 上海人工智能实验室, 华东师范大学, 香港中文大学(深圳), 高性能计算研究院,A*STAR
Published: 2025-08-07 23:36:24
License: 暂无描述

arXiv2025-08-07 更新2025-08-12 收录

下载链接：

https://huggingface.co/papers/2508.05502

下载链接

链接失效反馈

官方服务：

资源简介：

MELLA是一个多模态、多语言数据集，旨在解决低资源语言环境中多模态大型语言模型（MLLMs）的性能问题。该数据集包含680万个图像-文本对，覆盖阿拉伯语、捷克语、匈牙利语、韩语、俄语、塞尔维亚语、泰语和越南语等八种低资源语言。MELLA数据集的独特之处在于其双源策略，通过收集原始网络HTML的alt-text以及MLLM生成的详细英文图像描述，分别构建了文化知识和语言能力两个子数据集，从而在低资源语言环境中有效地提升了MLLM的语言能力和文化适应性。

MELLA is a multimodal, multilingual dataset designed to address the performance issues of multimodal large language models (MLLMs) in low-resource language contexts. This dataset contains 6.8 million image-text pairs, covering eight low-resource languages including Arabic, Czech, Hungarian, Korean, Russian, Serbian, Thai, and Vietnamese. The uniqueness of the MELLA dataset lies in its dual-source strategy: it constructs two sub-datasets focused on cultural knowledge and linguistic competence respectively by collecting both the alt-text from raw web HTML and detailed English image descriptions generated by MLLMs, thereby effectively enhancing the linguistic proficiency and cultural adaptability of MLLMs in low-resource language environments.

提供机构：

上海人工智能实验室, 华东师范大学, 香港中文大学(深圳), 高性能计算研究院,A*STAR

创建时间：

2025-08-07

搜集汇总

数据集介绍

构建方式

MELLA数据集的构建采用了双源数据策略，旨在同时提升多模态大语言模型（MLLMs）在低资源语言环境下的语言能力和文化基础。首先，通过爬取24个高流量网站，收集了包含阿拉伯语、捷克语、匈牙利语等八种低资源语言的图像及其原生HTML替代文本（alt-text），形成文化知识数据集D_know。其次，利用先进的MLLM生成详细的英文图像描述，并通过机器翻译将其转化为目标语言，构建语言学数据集D_ling。最终数据集包含680万高质量的图像-文本对，覆盖4个大类和22个细分类别。

特点

MELLA数据集具有显著的双重特性：一方面，其文化知识数据集D_know通过原生替代文本提供了丰富的文化背景信息，如名人、传统服饰等，增强了模型的文化理解能力；另一方面，语言学数据集D_ling通过机器翻译生成的详细描述，提升了模型在低资源语言中的表达能力。数据集的多样性和平衡性体现在语言覆盖广泛、主题分布均匀，且经过严格的质量过滤，确保数据的相关性和无毒性。

使用方法

使用MELLA数据集时，可采用监督微调（SFT）方法，通过交叉熵损失函数优化模型参数。针对不同语言，设计了20个提示模板的提示池，以随机选择的方式输入图像和提示，生成目标语言的文本序列。评估时，对D_know采用关键词准确率衡量文化知识掌握程度，对D_ling则使用BLEU、ROUGE-L和METEOR等指标评估语言生成质量。实验表明，微调后的模型在八种低资源语言上均表现出显著的性能提升。

背景与挑战

背景概述

MELLA数据集由上海人工智能实验室、华东师范大学、香港中文大学（深圳）和新加坡A*STAR高性能计算研究所的研究团队于2025年共同创建，旨在解决多模态大语言模型（MLLMs）在低资源语言环境下的两大核心问题：语言能力和文化适应性。该数据集包含680万图像-文本对，覆盖阿拉伯语、捷克语等8种低资源语言，通过双源数据策略（原生网络替代文本和文化知识、MLLM生成的语言描述）实现语言表达与文化理解的协同优化。MELLA的推出填补了现有数据集中在文化多样性方面的空白，为促进AI技术的全球包容性发展提供了重要资源。

当前挑战

MELLA面临的挑战主要体现在两个方面：领域问题层面，低资源语言的图像理解需同时克服语言稀缺性和文化特异性障碍，传统机器翻译方法难以捕捉文化符号的深层含义；数据构建层面，需平衡原生文化数据（如网络替代文本）的噪声过滤与语义完整性，并解决MLLM生成描述的跨语言质量一致性难题。此外，数据标注需协调语言学准确性和文化知识可信度，这对标注者的专业素养提出了双重标准要求。

常用场景

经典使用场景

MELLA数据集在跨模态多语言大模型（MLLMs）的研究中扮演着关键角色，尤其在低资源语言的语境理解与生成任务中表现突出。该数据集通过结合原生网络替代文本（alt-text）和机器翻译生成的描述，为模型提供了丰富的文化背景和语言细节。研究人员通常利用MELLA来训练和评估模型在图像描述、视觉问答（VQA）等任务中的表现，特别是在阿拉伯语、匈牙利语等低资源语言环境下，模型能够生成更具文化相关性和语言流畅性的输出。

实际应用

在实际应用中，MELLA支持构建更包容的全球化AI系统。例如，在阿拉伯地区的新闻媒体平台，基于MELLA训练的模型可准确识别图像中的政治人物或宗教符号，并生成符合本地文化语境的多语言描述；在教育领域，该数据集帮助开发多语言视觉辅助工具，为低资源语言用户提供更精准的学习内容。此外，企业可利用其增强跨文化客服机器人的应答能力，避免因文化误解导致的用户体验下降。

衍生相关工作

MELLA的发布推动了多项衍生研究：1）跨文化视觉问答基准CVQA扩展了其文化评估框架；2）CultureVLM等工作借鉴其双源数据策略，进一步优化了100+国家的文化理解；3）在机器翻译领域，研究者结合MELLA的alt-text数据改进低资源语言的实体翻译质量。此外，数据集的构建方法被LAION-5B等大规模多模态项目采纳，促进了数据收集标准的革新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集