five

opendiffusionai/pexels-photos-janpf

收藏
Hugging Face2026-01-19 更新2024-06-25 收录
下载链接:
https://hf-mirror.com/datasets/opendiffusionai/pexels-photos-janpf
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含约130K张图像,这些图像来自pexels.com,并按照md5哈希值命名。图像被组织在64个zip存档中,每个存档包含多个子目录。数据集提供了三种预生成的图像描述,分别来自WD14、InternLM和LLava-38b模型。此外,还提供了图像子集列表,如针对特定主题(如“woman”)的图像列表,并提供了如何使用这些子集进行图像过滤的示例。

The dataset contains approximately 130K images sourced from pexels.com, named based on the md5 hash of each image. The images are organized into 64 zip archives, each containing multiple subdirectories. The dataset provides three pre-generated image captions from WD14, InternLM, and LLava-38b models. Additionally, it includes lists of image subsets, such as those targeting specific themes (e.g., woman), and examples of how to use these subsets for image filtering.
提供机构:
opendiffusionai
原始信息汇总

数据集概述

图像数据

  • 数量:约130,000张图像。
  • 来源:来自pexels.com。
  • 组织结构:图像分布在64个归档文件中,每个归档文件覆盖从"00"到"ff"的子目录。例如,归档文件0_0-3.zip包含目录00、01、02和03。

图像描述

  • 类型:提供两种预计算的图像描述文件:
    • WD14描述文件:使用"WD14"vit2 LLM生成,但准确性较低,存在误标情况。
    • InternLM描述文件:使用InternLM 7b(量化)VLM生成,具体生成脚本见此链接
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作