OBELICS
收藏arXiv2023-08-21 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2306.16527v2
下载链接
链接失效反馈官方服务:
资源简介:
OBELICS是一个开放的网络规模过滤数据集,包含交错图像和文本的文档,由1.41亿个从Common Crawl提取的网页、3.53亿个相关图像和1150亿个文本令牌组成。
OBELICS is an open, web-scale filtered dataset consisting of documents with interleaved images and text. It comprises 141 million web pages extracted from Common Crawl, 353 million associated images, and 115 billion text tokens.
创建时间:
2023-06-21



