five

HuggingFaceM4/OBELICS

收藏
Hugging Face2023-08-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceM4/OBELICS
下载链接
链接失效反馈
官方服务:
资源简介:
OBELICS是一个开放的、大规模的、经过筛选的网页文档集合,包含141M个英文文档、115B个文本标记和353M张图像,这些数据是从2020年2月至2023年2月的Common Crawl数据中提取的。这些文档包含交替的图像和文本段落,如网页中的图像和文本。训练在这些网页文档上的模型在各种基准测试中表现优于仅使用图像-文本对训练的视觉和语言模型。数据集还提供了一个交互式可视化工具,允许用户探索OBELICS的内容。
提供机构:
HuggingFaceM4
原始信息汇总

数据集概述

名称: OBELICS

语言: 英语 (en)

许可证: CC-BY-4.0

大小: 100M<n<1B

配置:

  • 默认配置:

    • 数据文件路径: data/train-*
    • 训练数据:
      • 字节数: 715724717192
      • 示例数: 141047697
      • 下载大小: 71520629655
      • 数据集大小: 715724717192
    • 特征:
      • images: 序列类型为字符串
      • metadata: 数据类型为字符串
      • general_metadata: 数据类型为字符串
      • texts: 序列类型为字符串
  • opt_out_docs_removed_2023_07_12配置:

    • 数据文件路径: opt_out_docs_removed_2023_07_12/train-*
    • 训练数据:
      • 字节数: 684638314215
      • 示例数: 134648855
      • 下载大小: 266501092920
      • 数据集大小: 684638314215
    • 特征:
      • images: 序列类型为字符串
      • metadata: 数据类型为字符串
      • general_metadata: 数据类型为字符串
      • texts: 序列类型为字符串

数据字段:

  • images: 图像URL列表,与文本列表长度相同,每个索引位置只有一个元素不为None。
  • texts: 文本列表,与图像列表长度相同,每个索引位置只有一个元素不为None。
  • metadata: 包含每个图像相关信息的字符串列表。
  • general_metadata: 包含文档URL和从Common Crawl提取信息的字符串字典。

使用注意事项:

  • 偏见讨论: 数据集中的train部分经过评估,存在一些性别和职业相关的偏见。
  • 内容警告: 数据集中包含不适合所有观众的内容,如色情描述和暴力报告。
  • 版权和使用许可: 使用数据集需遵守CC-BY-4.0许可证,并在使用数据集训练的模型或应用中披露数据集的使用。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作