FrancophonIA/MIC21
收藏Hugging Face2026-05-04 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/FrancophonIA/MIC21
下载链接
链接失效反馈官方服务:
资源简介:
Multilingual Image Corpus(MIC 21)是一个包含24种语言标注对象和对象描述的大型图像数据集。该数据集基于WordNet构建了视觉对象本体,并包含了一系列主题相关的图像,这些图像中的对象被标注了分割掩码和描述本体类别的标签。该数据集旨在用于图像分类、对象检测和语义分割。主要贡献包括:提供大量高质量的免费版权图像;基于WordNet名词层次构建视觉对象本体;对图像中自动对象分割进行精确的手动校正和对象类别的标注;以及基于WordNet内部和跨语言关系的扩展多语言描述与对象和图像的关联。该数据集还可用于多语言图像标题生成、图像文本对齐和图像视频的自动问答。
The Multilingual Image Corpus (MIC 21) is a large image dataset with annotated objects and object descriptions in 24 languages. The dataset is based on an Ontology of visual objects (built upon WordNet) and includes a collection of thematically related images whose objects are annotated with segmentation masks and labels describing the ontology classes. It is designed for image classification, object detection, and semantic segmentation. The main contributions include: providing a large collection of high-quality copyright-free images; formulating the Ontology of visual objects based on WordNet noun hierarchies; precisely manually correcting automatic object segmentation within the images and annotating object classes; and associating objects and images with extended multilingual descriptions based on WordNets inner- and interlingual relations. The dataset can also be used for multilingual image caption generation, image-to-text alignment, and automatic question answering for images and videos.
提供机构:
FrancophonIA
搜集汇总
数据集介绍

构建方式
MIC21数据集基于WordNet名词层级体系构建了视觉对象本体论,并收集了涵盖艺术、安保、体育、交通四大领域的版权免费图像。每张图像中的对象均经过自动化分割后,辅以人工精准校正,最终形成带有分割掩码和类别标签的注释。该数据集通过HuggingFace转换为Parquet格式,并嵌入PIL图像,为每种语言的标签创建独立列。原始数据包含21,316幅图像,但因176幅图像的注释受损被移除,最终保留21,140幅高质量图像。
特点
该数据集的核心特点在于其多领域覆盖与多语言支持。图像来源分为艺术、安保、体育和交通四个子集,每个子集聚焦特定主题,便于针对性研究。注释信息遵循COCO格式,包含边界框、分割多边形和类别标识,适用于图像分类、目标检测与语义分割任 务。尤为突出的是,数据集提供了25种语言的标签翻译,覆盖英语、法语、德语等主要语言,为跨语言图像描述与多模态对齐研究提供了宝贵资源。
使用方法
用户可通过HuggingFace的`datasets`库便捷加载数据。支持按领域单独调用,如`load_dataset("FrancophonIA/MIC21", "arts")`加载艺术子集,或不加配置加载全部四领域图像。数据集包含图像、标识符、文件路径、尺寸、领域、类别名称及多语言标签等字段,对象的注释以列表形式存储,每个元素包含注释ID、类别ID、边界框坐标、面积、分割多边形及元数据。适用于微调视觉语言模型、生成多语言图像描述或训练多目标检测器。
背景与挑战
背景概述
MIC21(Multilingual Image Corpus 2021)是由Svetla Koeva、Ivelina Stoyanova和Jordan Kralev等研究人员于2022年在欧洲语言网格项目框架下构建的多模态多语言图像数据集。该数据集的核心研究问题在于应对大规模多模态数据流中自动图像描述任务对多样化领域和对象类别标注数据的迫切需求。基于WordNet名词层级体系构建视觉本体论,MIC21汇集了涵盖艺术、安全、体育与交通四个领域的高质量版权自由图像,并为每个图像中的对象提供精确的人工校正分割掩码及24种语言的跨语言描述。该数据集不仅支持图像分类、目标检测与语义分割等传统视觉任务,更拓展了多语言图像描述生成、图文对齐及视觉问答等前沿研究方向,推动了多模态与多语言信息处理领域的交叉融合。
当前挑战
数据集面临的挑战主要来自两个方面。在领域问题层面,尽管现有图像数据集数量日益增长,但涵盖领域多样性和细粒度对象类别的多语言标注资源仍极度匮乏,尤其缺乏同时支持跨语言语义理解与多模态对齐的高质量基准。在构建过程中,从近21,316张原始图像中剔除176张因损坏标注而无法关联的样本,反映了大规模人工标注质量控制与数据清洗的技术难点;此外,基于WordNet跨语言关系的多语言描述生成需处理24种语言间的语义对齐与本体层级映射,确保标注一致性与语言覆盖的完整性,这对构建者的语言学素养与自动化对齐算法提出了严苛要求。
常用场景
经典使用场景
在计算机视觉与自然语言处理的交叉领域,MIC21数据集凭借其多语言标注和多模态特性,成为图像描述、目标检测和语义分割等经典任务的理想训练与评估资源。该数据集收录了来自艺术、安全、体育和交通四大领域的高质量无版权图像,每张图像不仅标注了精确的类别标签和分割掩码,还配备了涵盖24种语言的多语种描述。研究人员能够利用这些丰富的标注信息,训练模型在图像分类任务中识别特定领域的目标,通过边界框完成精准的目标检测,或借助逐像素的分割掩码进行语义分割。特别地,数据集基于WordNet构建的视觉对象本体论,为细粒度类别识别和跨领域泛化提供了坚实的语义基础。因此,MIC21在推进多模态理解与多语言视觉学习的融合方面,展现出了不可或缺的实验平台价值。
解决学术问题
MIC21数据集致力于解决多模态数据流中图像自动描述所面临的多语言与多领域标注稀缺问题。学术研究中,大规模的标注数据集通常局限于单一语言和少数领域,导致模型在跨语言场景和多样化领域的泛化能力受限。通过提供24种语言的对象描述与语义分割标注,该数据集推动了语言无关的视觉表示学习,使研究能够探索跨语言知识迁移对图像理解的影响。此外,基于WordNet层次结构构建的本体论,解决了视觉对象类别缺乏结构化语义关联的难题,为细粒度分类和上下文推断提供了理论支撑。这一设计不仅提升了图像分类和目标检测的准确性,还促进了多语言图像描述生成、图像-文本对齐以及视觉问答等任务的发展,为构建真正具备跨文化理解能力的智能视觉系统奠定了数据基础。
衍生相关工作
MIC21数据集的发布催生了一系列富有影响力的相关系研究工作。其多语言标注特性启发了诸如跨语言视觉问答数据集和多模态翻译基准的构建,促使研究者关注语言与视觉的联合表示学习。以该数据集为基础,学界提出了融合多语言预训练语言模型与视觉Transformer的图像描述生成框架,显著提升了非英语场景下的描述质量。同时,基于MIC21本体论的细粒度对象识别任务,带动了领域特异性视觉特征提取和零样本学习方法的探索,推动了少样本条件下的跨领域泛化研究。此外,该数据集的高质量分割掩码和多样化的领域分布,激发了语义分割模型在域适应和鲁棒性评估方面的新工作,促使学界重新审视多模态数据在消除标注偏差和提升模型公平性方面的价值,为构建更具包容性的计算机视觉系统提供了重要启示。
以上内容由遇见数据集搜集并总结生成



