obelisc
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/obelisc
下载链接
链接失效反馈官方服务:
资源简介:
OBELISC是一个开放的,大规模的和精心策划的交错图像文本web文档集合,包含141M英文文档,115B文本令牌和353M图像,这些图像是从2020年2月和2023年2月之间的常见抓取转储中提取的。收集和过滤步骤在我们的论文中描述。
交错图像-文本web文档是一系列由图像交错的文本段落,例如包含图像的网页。在这些web文档上训练的模型优于在各种基准上仅在图像-文本对上训练的视觉和语言模型。它们还可以生成关于一组多个图像的长而连贯的文本。例如,我们训练了ifelics,这是一种视觉语言模型,它接受任意序列的图像和文本输入并生成文本输出。
我们提供了一个 [交互式可视化](TODO一旦我们有最终链接公开) 的方砖,允许探索方砖的内容。该地图显示了141个文档中的11个M的子集。
提供机构:
OpenDataLab
创建时间:
2023-10-11



