five

MELLA|自然语言处理数据集|多模态学习数据集

收藏
arXiv2025-08-07 更新2025-08-12 收录
自然语言处理
多模态学习
下载链接:
https://huggingface.co/papers/2508.05502
下载链接
链接失效反馈
资源简介:
MELLA是一个多模态、多语言数据集,旨在解决低资源语言环境中多模态大型语言模型(MLLMs)的性能问题。该数据集包含680万个图像-文本对,覆盖阿拉伯语、捷克语、匈牙利语、韩语、俄语、塞尔维亚语、泰语和越南语等八种低资源语言。MELLA数据集的独特之处在于其双源策略,通过收集原始网络HTML的alt-text以及MLLM生成的详细英文图像描述,分别构建了文化知识和语言能力两个子数据集,从而在低资源语言环境中有效地提升了MLLM的语言能力和文化适应性。
提供机构:
上海人工智能实验室, 华东师范大学, 香港中文大学(深圳), 高性能计算研究院,A*STAR
创建时间:
2025-08-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
MELLA数据集的构建采用了双源数据策略,旨在同时提升多模态大语言模型(MLLMs)在低资源语言环境下的语言能力和文化基础。首先,通过爬取24个高流量网站,收集了包含阿拉伯语、捷克语、匈牙利语等八种低资源语言的图像及其原生HTML替代文本(alt-text),形成文化知识数据集D_know。其次,利用先进的MLLM生成详细的英文图像描述,并通过机器翻译将其转化为目标语言,构建语言学数据集D_ling。最终数据集包含680万高质量的图像-文本对,覆盖4个大类和22个细分类别。
特点
MELLA数据集具有显著的双重特性:一方面,其文化知识数据集D_know通过原生替代文本提供了丰富的文化背景信息,如名人、传统服饰等,增强了模型的文化理解能力;另一方面,语言学数据集D_ling通过机器翻译生成的详细描述,提升了模型在低资源语言中的表达能力。数据集的多样性和平衡性体现在语言覆盖广泛、主题分布均匀,且经过严格的质量过滤,确保数据的相关性和无毒性。
使用方法
使用MELLA数据集时,可采用监督微调(SFT)方法,通过交叉熵损失函数优化模型参数。针对不同语言,设计了20个提示模板的提示池,以随机选择的方式输入图像和提示,生成目标语言的文本序列。评估时,对D_know采用关键词准确率衡量文化知识掌握程度,对D_ling则使用BLEU、ROUGE-L和METEOR等指标评估语言生成质量。实验表明,微调后的模型在八种低资源语言上均表现出显著的性能提升。
背景与挑战
背景概述
MELLA数据集由上海人工智能实验室、华东师范大学、香港中文大学(深圳)和新加坡A*STAR高性能计算研究所的研究团队于2025年共同创建,旨在解决多模态大语言模型(MLLMs)在低资源语言环境下的两大核心问题:语言能力和文化适应性。该数据集包含680万图像-文本对,覆盖阿拉伯语、捷克语等8种低资源语言,通过双源数据策略(原生网络替代文本和文化知识、MLLM生成的语言描述)实现语言表达与文化理解的协同优化。MELLA的推出填补了现有数据集中在文化多样性方面的空白,为促进AI技术的全球包容性发展提供了重要资源。
当前挑战
MELLA面临的挑战主要体现在两个方面:领域问题层面,低资源语言的图像理解需同时克服语言稀缺性和文化特异性障碍,传统机器翻译方法难以捕捉文化符号的深层含义;数据构建层面,需平衡原生文化数据(如网络替代文本)的噪声过滤与语义完整性,并解决MLLM生成描述的跨语言质量一致性难题。此外,数据标注需协调语言学准确性和文化知识可信度,这对标注者的专业素养提出了双重标准要求。
常用场景
经典使用场景
MELLA数据集在跨模态多语言大模型(MLLMs)的研究中扮演着关键角色,尤其在低资源语言的语境理解与生成任务中表现突出。该数据集通过结合原生网络替代文本(alt-text)和机器翻译生成的描述,为模型提供了丰富的文化背景和语言细节。研究人员通常利用MELLA来训练和评估模型在图像描述、视觉问答(VQA)等任务中的表现,特别是在阿拉伯语、匈牙利语等低资源语言环境下,模型能够生成更具文化相关性和语言流畅性的输出。
实际应用
在实际应用中,MELLA支持构建更包容的全球化AI系统。例如,在阿拉伯地区的新闻媒体平台,基于MELLA训练的模型可准确识别图像中的政治人物或宗教符号,并生成符合本地文化语境的多语言描述;在教育领域,该数据集帮助开发多语言视觉辅助工具,为低资源语言用户提供更精准的学习内容。此外,企业可利用其增强跨文化客服机器人的应答能力,避免因文化误解导致的用户体验下降。
衍生相关工作
MELLA的发布推动了多项衍生研究:1)跨文化视觉问答基准CVQA扩展了其文化评估框架;2)CultureVLM等工作借鉴其双源数据策略,进一步优化了100+国家的文化理解;3)在机器翻译领域,研究者结合MELLA的alt-text数据改进低资源语言的实体翻译质量。此外,数据集的构建方法被LAION-5B等大规模多模态项目采纳,促进了数据收集标准的革新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

VSR-120K

VSR-120K数据集是一个大规模的高质量图像和视频数据集,包含12万个视频(平均长度超过350帧)和18万个高质量图像。该数据集用于联合图像和视频的超分辨率训练,旨在提高视频超分辨率技术的性能和通用性。数据集的创建过程中,采用了自动化质量控制,以确保数据集的质量。VSR-120K数据集的应用领域是视频超分辨率技术,旨在解决高分辨率、高质量和实时流式视频超分辨率的问题。

arXiv 收录

波士顿房价数据集

波士顿房价数据集是一个经典的机器学习数据集,通常用于回归任务,尤其是房价预测。下方文档中有所有字段顺序的描述。

阿里云天池 收录