多模态牧歌数据集-测试使用
收藏魔搭社区2026-01-06 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/wangxingjun778/muge_test
下载链接
链接失效反馈官方服务:
资源简介:
## 数据集描述
muge数据集,包含train、val和test,目前是pair不支持检索是测试。
### 数据集简介
MUGE(牧歌,Multimodal Understanding and Generation Evaluation)是业界首个大规模中文多模态评测基准,由达摩院联合浙江大学、阿里云天池平台联合发布,中国计算机学会计算机视觉专委会(CCF-CV专委)协助推出。目前包括:
· 包含多模态理解与生成任务在内的多模态评测基准,其中包括图像描述、图文检索以及基于文本的图像生成。未来我们将公布更多任务及数据。
· 公开的评测榜单,帮助研究人员评估模型和追踪进展。
MUGE旨在推动多模态表示学习进展,尤其关注多模态预训练。具备多模态理解和生成能力的模型均可以参加此评测,欢迎各位与我们共同推动多模态领域发展。
### 数据集支持的任务
caption和图文检索任务
## 数据集的格式和结构
### 数据格式
包含image_id, label, image等信息。
### 数据集加载方式
```python
from modelscope.msdatasets import MsDataset
ds = MsDataset.load("wangxingjun778/muge_test", split="train")
print(ds[0])
# {'query_id': '148144', 'query': 't恤 命运石之门', 'image_id': '797458', 'image': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=224x224 at 0x7FEB2F602278>}
print(ds[0:2])
# {'query_id': ['148144', '87899'], 'query': ['t恤 命运石之门', '票登记'], 'image_id': ['797458', '56421'], 'image': [<PIL.PngImagePlugin.PngImageFile image mode=RGB size=224x224 at 0x7FEB2F602470>, <PIL.PngImagePlugin.PngImageFile image mode=RGB size=224x224 at 0x7FEB05822DA0>]}
```
### 数据分片
数据已经预设了train/validation分片。
## 数据集生成的相关信息
原始数据参见:https://tianchi.aliyun.com/muge
## 数据集版权信息
数据集已经开源,license为CC BY-NC 4.0,如有违反相关条款,随时联系modelscope删除。
## 引用方式
```
@article{lin2021m6,
title={M6: A chinese multimodal pretrainer},
author={Lin, Junyang and Men, Rui and Yang, An and Zhou, Chang and Ding, Ming and Zhang, Yichang and Wang, Peng and Wang, Ang and Jiang, Le and Jia, Xianyan and others},
journal={arXiv preprint arXiv:2103.00823},
year={2021}
}
```
## 其他相关信息
数据源[牧歌](https://tianchi.aliyun.com/muge),可能存在bias,请合理使用。
### Clone with HTTP
* http://www.modelscope.cn/datasets/modelscope/ocr_fudanvi_zh.git
### 数据集描述
MUGE数据集包含训练(train)、验证(val)与测试(test)三个划分,当前仅测试集支持成对图文检索任务。
### 数据集简介
MUGE(Multimodal Understanding and Generation Evaluation,中文名牧歌)是业内首个大规模中文多模态评测基准,由达摩院联合浙江大学、阿里云天池平台联合发布,并由中国计算机学会计算机视觉专委会(CCF-CV专委)协助推出。当前该基准涵盖多模态理解与生成类任务,具体包含图像描述(caption)、图文检索以及文本驱动的图像生成;未来我们将开放更多任务与数据集。同时配套公开评测榜单,助力研究人员评估模型性能并追踪领域进展。
MUGE的核心目标是推动多模态表示学习领域的发展,尤其聚焦多模态预训练方向。所有具备多模态理解与生成能力的模型均可参与本评测,诚邀各界同仁携手推进多模态领域的技术进步。
### 数据集支持的任务
图像描述(caption)与图文检索两类任务
### 数据集的格式和结构
### 数据格式
数据字段包含image_id、label与image等。
### 数据集加载方式
python
from modelscope.msdatasets import MsDataset
ds = MsDataset.load("wangxingjun778/muge_test", split="train")
print(ds[0])
# {'query_id': '148144', 'query': 'T恤 命运石之门', 'image_id': '797458', 'image': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=224x224 at 0x7FEB2F602278>}
print(ds[0:2])
# {'query_id': ['148144', '87899'], 'query': ['T恤 命运石之门', '票登记'], 'image_id': ['797458', '56421'], 'image': [<PIL.PngImagePlugin.PngImageFile image mode=RGB size=224x224 at 0x7FEB2F602470>, <PIL.PngImagePlugin.PngImageFile image mode=RGB size=224x224 at 0x7FEB05822DA0>]}
### 数据分片
数据集已预设训练(train)与验证(validation)划分。
### 数据集生成相关信息
原始数据集详见:https://tianchi.aliyun.com/muge
### 数据集版权信息
本数据集已开源,采用CC BY-NC 4.0协议授权。若存在违反协议条款的情况,可随时联系modelscope平台进行下架处理。
### 引用格式
@article{lin2021m6,
title={M6: A chinese multimodal pretrainer},
author={Lin, Junyang and Men, Rui and Yang, An and Zhou, Chang and Ding, Ming and Zhang, Yichang and Wang, Peng and Wang, Ang and Jiang, Le and Jia, Xianyan and others},
journal={arXiv preprint arXiv:2103.00823},
year={2021}
}
### 其他相关说明
本数据集的数据源为[牧歌](https://tianchi.aliyun.com/muge),数据集可能存在偏倚(bias),请合理合规使用。
### Clone with HTTP
* http://www.modelscope.cn/datasets/modelscope/ocr_fudanvi_zh.git
提供机构:
maas
创建时间:
2024-08-06
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是MUGE(牧歌)多模态评测基准的测试版本,专注于中文多模态理解与生成任务,包括图像描述和图文检索。它提供了预设的训练和验证分片,数据格式包含图像ID、标签和图像信息,适用于评估多模态预训练模型,并遵循CC BY-NC 4.0开源协议。
以上内容由遇见数据集搜集并总结生成



