MELLA
收藏arXiv2025-08-07 更新2025-08-12 收录
下载链接:
https://huggingface.co/papers/2508.05502
下载链接
链接失效反馈资源简介:
MELLA是一个多模态、多语言数据集,旨在解决低资源语言环境中多模态大型语言模型(MLLMs)的性能问题。该数据集包含680万个图像-文本对,覆盖阿拉伯语、捷克语、匈牙利语、韩语、俄语、塞尔维亚语、泰语和越南语等八种低资源语言。MELLA数据集的独特之处在于其双源策略,通过收集原始网络HTML的alt-text以及MLLM生成的详细英文图像描述,分别构建了文化知识和语言能力两个子数据集,从而在低资源语言环境中有效地提升了MLLM的语言能力和文化适应性。
提供机构:
上海人工智能实验室, 华东师范大学, 香港中文大学(深圳), 高性能计算研究院,A*STAR
创建时间:
2025-08-07
搜集汇总
数据集介绍

构建方式
MELLA数据集的构建采用了双源数据策略,旨在同时提升多模态大语言模型(MLLMs)在低资源语言环境下的语言能力和文化基础。首先,通过爬取24个高流量网站,收集了包含阿拉伯语、捷克语、匈牙利语等八种低资源语言的图像及其原生HTML替代文本(alt-text),形成文化知识数据集D_know。其次,利用先进的MLLM生成详细的英文图像描述,并通过机器翻译将其转化为目标语言,构建语言学数据集D_ling。最终数据集包含680万高质量的图像-文本对,覆盖4个大类和22个细分类别。
特点
MELLA数据集具有显著的双重特性:一方面,其文化知识数据集D_know通过原生替代文本提供了丰富的文化背景信息,如名人、传统服饰等,增强了模型的文化理解能力;另一方面,语言学数据集D_ling通过机器翻译生成的详细描述,提升了模型在低资源语言中的表达能力。数据集的多样性和平衡性体现在语言覆盖广泛、主题分布均匀,且经过严格的质量过滤,确保数据的相关性和无毒性。
使用方法
使用MELLA数据集时,可采用监督微调(SFT)方法,通过交叉熵损失函数优化模型参数。针对不同语言,设计了20个提示模板的提示池,以随机选择的方式输入图像和提示,生成目标语言的文本序列。评估时,对D_know采用关键词准确率衡量文化知识掌握程度,对D_ling则使用BLEU、ROUGE-L和METEOR等指标评估语言生成质量。实验表明,微调后的模型在八种低资源语言上均表现出显著的性能提升。
背景与挑战
背景概述
MELLA数据集由上海人工智能实验室、华东师范大学、香港中文大学(深圳)和新加坡A*STAR高性能计算研究所的研究团队于2025年共同创建,旨在解决多模态大语言模型(MLLMs)在低资源语言环境下的两大核心问题:语言能力和文化适应性。该数据集包含680万图像-文本对,覆盖阿拉伯语、捷克语等8种低资源语言,通过双源数据策略(原生网络替代文本和文化知识、MLLM生成的语言描述)实现语言表达与文化理解的协同优化。MELLA的推出填补了现有数据集中在文化多样性方面的空白,为促进AI技术的全球包容性发展提供了重要资源。
当前挑战
MELLA面临的挑战主要体现在两个方面:领域问题层面,低资源语言的图像理解需同时克服语言稀缺性和文化特异性障碍,传统机器翻译方法难以捕捉文化符号的深层含义;数据构建层面,需平衡原生文化数据(如网络替代文本)的噪声过滤与语义完整性,并解决MLLM生成描述的跨语言质量一致性难题。此外,数据标注需协调语言学准确性和文化知识可信度,这对标注者的专业素养提出了双重标准要求。
常用场景
经典使用场景
MELLA数据集在跨模态多语言大模型(MLLMs)的研究中扮演着关键角色,尤其在低资源语言的语境理解与生成任务中表现突出。该数据集通过结合原生网络替代文本(alt-text)和机器翻译生成的描述,为模型提供了丰富的文化背景和语言细节。研究人员通常利用MELLA来训练和评估模型在图像描述、视觉问答(VQA)等任务中的表现,特别是在阿拉伯语、匈牙利语等低资源语言环境下,模型能够生成更具文化相关性和语言流畅性的输出。
实际应用
在实际应用中,MELLA支持构建更包容的全球化AI系统。例如,在阿拉伯地区的新闻媒体平台,基于MELLA训练的模型可准确识别图像中的政治人物或宗教符号,并生成符合本地文化语境的多语言描述;在教育领域,该数据集帮助开发多语言视觉辅助工具,为低资源语言用户提供更精准的学习内容。此外,企业可利用其增强跨文化客服机器人的应答能力,避免因文化误解导致的用户体验下降。
衍生相关工作
MELLA的发布推动了多项衍生研究:1)跨文化视觉问答基准CVQA扩展了其文化评估框架;2)CultureVLM等工作借鉴其双源数据策略,进一步优化了100+国家的文化理解;3)在机器翻译领域,研究者结合MELLA的alt-text数据改进低资源语言的实体翻译质量。此外,数据集的构建方法被LAION-5B等大规模多模态项目采纳,促进了数据收集标准的革新。
以上内容由遇见数据集搜集并总结生成



