SuperWikiImage-7M

Hugging Face2024-10-06 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/recursal/SuperWikiImage-7M

下载链接

链接失效反馈

官方服务：

资源简介：

SuperWikiImages-7M 是一个从维基百科抓取的大规模图像数据集，总计约15TiB，包含约700万张图像。该数据集由KaraKaraWitch策划，并由Recursal.ai资助。它支持多种任务，包括图像分类、图像到文本、文本到图像和图像到图像。数据集是多语言的，涵盖了来自各种维基百科版本的广泛语言。图像经过筛选，仅包括具有特定文件扩展名（jpeg、jpg、png）的图像，并通过文件名进行去重。数据集包含多种许可证，如果图像的许可证不明确或属于黑名单，则会被移除。该数据集设计为与WebDataset格式兼容，便于在机器学习任务中加载和使用。

创建时间：

2024-09-23

原始信息汇总

SuperWikiImage-7M 数据集概述

数据集描述

名称: SuperWikiImages-7M
大小: 约15TiB
图像数量: 约700万张
来源: 从维基百科中抓取的图像
语言: 多语言，涵盖多种语言的维基百科
任务类别:
- 图像分类
- 图像到文本
- 文本到图像
- 图像到图像
任务ID:
- 语言建模
- 掩码语言建模
数据格式: WebDataset
许可证: 混合许可证，具体见下文

语言列表

af, ar, ast, az, be, bg, bn, ca, ce, cs, cy, da, de, el, en, eo, es, et, eu, fa, fi, fr, gl, he, hi, hr, hu, hy, id, it, ja, ka, kk, ko, la, lt, lv, mk, ms, my, nl, nn, no, pl, pt, ro, ru, sh, sk, sl, sr, sv, ta, tg, th, tr, uk, ur, uz, vi, zh

数据集来源

源数据: https://dumps.wikimedia.org/other/enterprise_html/

数据集筛选过程

从维基百科的dump文件中提取所有图像
仅保留以.jpeg, .jpg, .png结尾的图像
通过文件名去重
删除没有语言描述的图像
从维基百科下载图像（过程较慢）
编译成WebDataset格式

使用示例

python import webdataset as wds

tar_root = "... chunk_00/wiki_images-0000.tar" hf_dataset = wds.WebDataset(str(tar_root)).decode("pil") for i in hf_dataset: print(i)

许可证

许可证类型: 混合许可证
许可证列表:
- attribution
- cc by
- cc sa
- cc-by
- cc0
- C0 1.0
- fal
- Nagi BY SA
- No restrictions
- pdm-
- public domain
- Share Alike
- dl-de/by-2-0
- dl-de/zero-2-0
- AGPL
- apache
- APSL
- Artistic 2.0
- bsd
- BSL
- CeCILL
- EPL
- FWL
- GFDL
- gpl
- lgpl
- LPL
- LPPL
- mit
- MPL
- NetHack GPL
- OFL
- OGL
- OPL 3.0
- OSPL
- PostgreSQL License
- WTFPL
- ZLIB
- ODbL
- OS OpenData
- Geoportal
- DGA Map
- StatCanOpen
- CDDL
- EdictGov-India
- GODL-India
- KOGL Type 1
- KOGL Type-1
- KoreaGov
- LGACDMX
- Licence Ouverte
- OGDL
- 정보공유라이선스 2.0: 허용
- copyrighted free use
- Open data

数据集创建者

创建者: KaraKaraWitch
资助者: Recursal.ai

搜集汇总

数据集介绍

构建方式

SuperWikiImage-7M数据集的构建过程主要依赖于从维基媒体公共资源库中提取图像数据。首先，通过迭代维基百科的转储文件，筛选出以`.jpeg`、`.jpg`和`.png`结尾的图像文件。随后，通过文件名匹配进行去重，并剔除那些没有至少一种语言描述的图像。最终，这些图像被下载并编译成WebDataset格式，确保了数据的原始性和多样性。

特点

SuperWikiImage-7M数据集包含了约700万张图像，涵盖了超过50种语言的维基百科内容。该数据集的特点在于其多语言支持和高质量的内容筛选标准。每个图像都附有至少一种语言的描述，且所有图像均来自维基媒体公共资源库，确保了数据的广泛性和权威性。此外，数据集还经过了严格的许可筛选，仅包含符合特定许可协议的图像。

使用方法

SuperWikiImage-7M数据集的使用方法主要依赖于WebDataset格式的加载。用户可以通过`webdataset`库加载数据集，并利用其提供的图像和对应的多语言描述进行各种任务，如图像分类、图像到文本生成、文本到图像生成等。数据集中的每个图像文件都附有详细的元数据，包括图像的URL和多种语言的描述，便于用户进行多语言处理和分析。

背景与挑战

背景概述

SuperWikiImage-7M数据集由KaraKaraWitch和Recursal.ai共同创建，于2024年发布。该数据集包含了从维基媒体共享资源中提取的约700万张图像，总容量约为15TiB，涵盖了多种语言和主题。数据集的主要研究问题在于如何通过大规模的多语言图像数据集推动图像分类、图像到文本、文本到图像以及图像到图像等任务的进展。该数据集的发布为多语言图像处理领域提供了丰富的资源，极大地促进了跨语言图像理解和生成模型的发展。

当前挑战

SuperWikiImage-7M数据集在构建过程中面临了多重挑战。首先，数据集的规模庞大，处理和管理15TiB的图像数据需要高效的存储和计算资源。其次，数据来源的多样性和多语言特性使得数据清洗和标注变得复杂，尤其是在确保图像与对应语言的描述准确匹配时。此外，数据集中涉及的图像版权问题也增加了构建的难度，必须严格筛选符合许可协议的图像。最后，数据集的多样性和规模对模型的训练和优化提出了更高的要求，如何在多语言环境下保持模型的性能和泛化能力是一个重要的技术挑战。

常用场景

经典使用场景

SuperWikiImage-7M数据集广泛应用于图像分类、图像到文本、文本到图像以及图像到图像的转换任务。其庞大的图像库和多样化的语言支持使其成为跨语言视觉任务研究的理想选择。研究人员可以利用该数据集进行多模态学习，探索图像与文本之间的复杂关系，从而推动计算机视觉和自然语言处理领域的交叉研究。

解决学术问题

SuperWikiImage-7M数据集解决了多语言环境下图像与文本关联的学术研究问题。通过提供来自多种语言的图像及其对应的文本描述，该数据集为跨语言视觉理解、多模态对齐以及图像生成任务提供了丰富的数据支持。其高质量的数据筛选机制确保了数据的多样性和准确性，为相关领域的研究提供了坚实的基础。

衍生相关工作

基于SuperWikiImage-7M数据集，许多经典研究工作得以展开。例如，研究人员开发了多模态预训练模型，利用该数据集进行跨语言图像与文本的联合学习。此外，该数据集还被用于改进图像生成模型，生成与多语言文本描述相匹配的高质量图像。这些工作不仅推动了多模态学习的发展，也为跨语言视觉任务提供了新的解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集