five

多模态牧歌数据集-测试使用

收藏
魔搭社区2026-01-06 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/wangxingjun778/muge_test
下载链接
链接失效反馈
官方服务:
资源简介:
## 数据集描述 muge数据集,包含train、val和test,目前是pair不支持检索是测试。 ### 数据集简介 MUGE(牧歌,Multimodal Understanding and Generation Evaluation)是业界首个大规模中文多模态评测基准,由达摩院联合浙江大学、阿里云天池平台联合发布,中国计算机学会计算机视觉专委会(CCF-CV专委)协助推出。目前包括: · 包含多模态理解与生成任务在内的多模态评测基准,其中包括图像描述、图文检索以及基于文本的图像生成。未来我们将公布更多任务及数据。 · 公开的评测榜单,帮助研究人员评估模型和追踪进展。 MUGE旨在推动多模态表示学习进展,尤其关注多模态预训练。具备多模态理解和生成能力的模型均可以参加此评测,欢迎各位与我们共同推动多模态领域发展。 ### 数据集支持的任务 caption和图文检索任务 ## 数据集的格式和结构 ### 数据格式 包含image_id, label, image等信息。 ### 数据集加载方式 ```python from modelscope.msdatasets import MsDataset ds = MsDataset.load("wangxingjun778/muge_test", split="train") print(ds[0]) # {'query_id': '148144', 'query': 't恤 命运石之门', 'image_id': '797458', 'image': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=224x224 at 0x7FEB2F602278>} print(ds[0:2]) # {'query_id': ['148144', '87899'], 'query': ['t恤 命运石之门', '票登记'], 'image_id': ['797458', '56421'], 'image': [<PIL.PngImagePlugin.PngImageFile image mode=RGB size=224x224 at 0x7FEB2F602470>, <PIL.PngImagePlugin.PngImageFile image mode=RGB size=224x224 at 0x7FEB05822DA0>]} ``` ### 数据分片 数据已经预设了train/validation分片。 ## 数据集生成的相关信息 原始数据参见:https://tianchi.aliyun.com/muge ## 数据集版权信息 数据集已经开源,license为CC BY-NC 4.0,如有违反相关条款,随时联系modelscope删除。 ## 引用方式 ``` @article{lin2021m6, title={M6: A chinese multimodal pretrainer}, author={Lin, Junyang and Men, Rui and Yang, An and Zhou, Chang and Ding, Ming and Zhang, Yichang and Wang, Peng and Wang, Ang and Jiang, Le and Jia, Xianyan and others}, journal={arXiv preprint arXiv:2103.00823}, year={2021} } ``` ## 其他相关信息 数据源[牧歌](https://tianchi.aliyun.com/muge),可能存在bias,请合理使用。 ### Clone with HTTP * http://www.modelscope.cn/datasets/modelscope/ocr_fudanvi_zh.git

### 数据集描述 MUGE数据集包含训练(train)、验证(val)与测试(test)三个划分,当前仅测试集支持成对图文检索任务。 ### 数据集简介 MUGE(Multimodal Understanding and Generation Evaluation,中文名牧歌)是业内首个大规模中文多模态评测基准,由达摩院联合浙江大学、阿里云天池平台联合发布,并由中国计算机学会计算机视觉专委会(CCF-CV专委)协助推出。当前该基准涵盖多模态理解与生成类任务,具体包含图像描述(caption)、图文检索以及文本驱动的图像生成;未来我们将开放更多任务与数据集。同时配套公开评测榜单,助力研究人员评估模型性能并追踪领域进展。 MUGE的核心目标是推动多模态表示学习领域的发展,尤其聚焦多模态预训练方向。所有具备多模态理解与生成能力的模型均可参与本评测,诚邀各界同仁携手推进多模态领域的技术进步。 ### 数据集支持的任务 图像描述(caption)与图文检索两类任务 ### 数据集的格式和结构 ### 数据格式 数据字段包含image_id、label与image等。 ### 数据集加载方式 python from modelscope.msdatasets import MsDataset ds = MsDataset.load("wangxingjun778/muge_test", split="train") print(ds[0]) # {'query_id': '148144', 'query': 'T恤 命运石之门', 'image_id': '797458', 'image': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=224x224 at 0x7FEB2F602278>} print(ds[0:2]) # {'query_id': ['148144', '87899'], 'query': ['T恤 命运石之门', '票登记'], 'image_id': ['797458', '56421'], 'image': [<PIL.PngImagePlugin.PngImageFile image mode=RGB size=224x224 at 0x7FEB2F602470>, <PIL.PngImagePlugin.PngImageFile image mode=RGB size=224x224 at 0x7FEB05822DA0>]} ### 数据分片 数据集已预设训练(train)与验证(validation)划分。 ### 数据集生成相关信息 原始数据集详见:https://tianchi.aliyun.com/muge ### 数据集版权信息 本数据集已开源,采用CC BY-NC 4.0协议授权。若存在违反协议条款的情况,可随时联系modelscope平台进行下架处理。 ### 引用格式 @article{lin2021m6, title={M6: A chinese multimodal pretrainer}, author={Lin, Junyang and Men, Rui and Yang, An and Zhou, Chang and Ding, Ming and Zhang, Yichang and Wang, Peng and Wang, Ang and Jiang, Le and Jia, Xianyan and others}, journal={arXiv preprint arXiv:2103.00823}, year={2021} } ### 其他相关说明 本数据集的数据源为[牧歌](https://tianchi.aliyun.com/muge),数据集可能存在偏倚(bias),请合理合规使用。 ### Clone with HTTP * http://www.modelscope.cn/datasets/modelscope/ocr_fudanvi_zh.git
提供机构:
maas
创建时间:
2024-08-06
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是MUGE(牧歌)多模态评测基准的测试版本,专注于中文多模态理解与生成任务,包括图像描述和图文检索。它提供了预设的训练和验证分片,数据格式包含图像ID、标签和图像信息,适用于评估多模态预训练模型,并遵循CC BY-NC 4.0开源协议。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务