five

wanng/wukong100m

收藏
Hugging Face2022-12-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wanng/wukong100m
下载链接
链接失效反馈
官方服务:
资源简介:
取自Noah-Wukong多语言多模态数据集中的中文部分,一共100M个图文对。大约占用16GB空间(仅仅是url等文本信息,不包含图片)。下载成功率在80%左右。

The Chinese subset extracted from the Noah-Wukong multilingual multimodal dataset contains a total of 100 million image-text pairs. It occupies approximately 16 GB of storage space, with only textual information such as URLs included, excluding the actual images. The download success rate of this dataset is around 80%.
提供机构:
wanng
原始信息汇总

数据集概述:Wukong100M

基本信息

  • 名称: Wukong100M
  • 语言: 中文 (zh)
  • 许可证: CC BY-NC-SA 4.0
  • 多语言性: 单语种
  • 任务类别: 特征提取

数据集描述

  • 来源: 来自Noah-Wukong多语言多模态数据集的中文部分
  • 内容: 约100M个中文图文对
  • 存储空间: 约占用16GB空间(仅包含URL等文本信息,不包含图片)
  • 下载成功率: 约80%

下载指南

  • 下载命令: bash mkdir wukong100m && cd wukong100m for i in {00000..00031}; do wget https://huggingface.co/datasets/wanng/wukong100m/resolve/main/data/train-$i-of-00032.parquet; done cd ..
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作