five

obelisc

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/obelisc
下载链接
链接失效反馈
官方服务:
资源简介:
OBELISC是一个开放的,大规模的和精心策划的交错图像文本web文档集合,包含141M英文文档,115B文本令牌和353M图像,这些图像是从2020年2月和2023年2月之间的常见抓取转储中提取的。收集和过滤步骤在我们的论文中描述。 交错图像-文本web文档是一系列由图像交错的文本段落,例如包含图像的网页。在这些web文档上训练的模型优于在各种基准上仅在图像-文本对上训练的视觉和语言模型。它们还可以生成关于一组多个图像的长而连贯的文本。例如,我们训练了ifelics,这是一种视觉语言模型,它接受任意序列的图像和文本输入并生成文本输出。 我们提供了一个 [交互式可视化](TODO一旦我们有最终链接公开) 的方砖,允许探索方砖的内容。该地图显示了141个文档中的11个M的子集。
提供机构:
OpenDataLab
创建时间:
2023-10-11
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
OBELISC是一个大规模的交错图像文本web文档集合,包含141M文档、115B文本令牌和353M图像,数据源自2020-2023年间的常见抓取转储,可用于训练视觉语言模型。该数据集由斯坦福大学、索邦大学和Hugging Face于2023年发布。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作