wanng/wukong100m
收藏Hugging Face2022-12-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wanng/wukong100m
下载链接
链接失效反馈官方服务:
资源简介:
取自Noah-Wukong多语言多模态数据集中的中文部分,一共100M个图文对。大约占用16GB空间(仅仅是url等文本信息,不包含图片)。下载成功率在80%左右。
The Chinese subset extracted from the Noah-Wukong multilingual multimodal dataset contains a total of 100 million image-text pairs. It occupies approximately 16 GB of storage space, with only textual information such as URLs included, excluding the actual images. The download success rate of this dataset is around 80%.
提供机构:
wanng
原始信息汇总
数据集概述:Wukong100M
基本信息
- 名称: Wukong100M
- 语言: 中文 (zh)
- 许可证: CC BY-NC-SA 4.0
- 多语言性: 单语种
- 任务类别: 特征提取
数据集描述
- 来源: 来自Noah-Wukong多语言多模态数据集的中文部分
- 内容: 约100M个中文图文对
- 存储空间: 约占用16GB空间(仅包含URL等文本信息,不包含图片)
- 下载成功率: 约80%
下载指南
- 下载命令: bash mkdir wukong100m && cd wukong100m for i in {00000..00031}; do wget https://huggingface.co/datasets/wanng/wukong100m/resolve/main/data/train-$i-of-00032.parquet; done cd ..
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



