five

Multimodal-C4 (mmc4)

收藏
OpenDataLab2026-04-05 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Multimodal-C4_mmc4
下载链接
链接失效反馈
资源简介:
多模态 C4 (MMC4) 是流行的纯文本 c4 语料库的增强,图像交错。 语料库包含 103M 文档,其中包含 585M 图像与 43B 英文标记交错。

Multimodal C4 (MMC4) is an enhanced version of the widely popular plain-text C4 corpus, with images interleaved into the textual content. The corpus contains 103 million documents, which collectively interleave 585 million images and 43 billion English tokens.
提供机构:
OpenDataLab
创建时间:
2023-05-09
AI搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Multimodal-C4 (mmc4) 是一个大规模多模态预训练数据集,基于纯文本C4语料库增强,包含103M文档,其中图像与文本交错,涵盖585M图像和43B英文标记。该数据集由学术机构联合发布,主要用于图像文本网页预训练和预训练语言模型任务,支持多模态AI研究。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作