atom-in-the-universe/cc-faces-150k

Name: atom-in-the-universe/cc-faces-150k
Creator: atom-in-the-universe
Published: 2023-06-13 13:30:20
License: 暂无描述

Hugging Face2023-06-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/atom-in-the-universe/cc-faces-150k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自Common Crawl的150k张包含人脸的图像。用户可以通过HuggingFace的`datasets`库或`img2dataset`工具下载和处理这些图像。数据集中的图像经过筛选，只保留第一个检测到的人脸，并且人脸的最小尺寸为40像素。

提供机构：

atom-in-the-universe

原始信息汇总

数据集概述

过滤条件: 仅选择图像中第一个面部，并且面部尺寸最小为40像素。
处理代码: python from datasets import load_dataset

def filter_bbox(bbox, min_size=40): x1, x2, y1, y2 = bbox return x2 - x1 >= min_size and y2 - y1 >= min_size

ds = load_dataset(atom-in-the-universe/cc-faces-150k) ds = ds.map(lambda sample: {faces: sample[faces][0]}) ds = ds.filter(lambda sample: filter_bbox(sample[faces])) ds.to_parquet(cc_faces.parquet)

下载工具: 使用Vanga的img2dataset fork进行下载。
下载脚本: python from img2dataset import download import os

output_dir = os.path.abspath("bench")

download( processes_count=16, thread_count=32, url_list="cc_faces.parquet", image_size=256, output_folder=output_dir, output_format="files", input_format="parquet", url_col="url", caption_col="alt", enable_wandb=True, number_sample_per_shard=1000, distributor="multiprocessing", box_col=faces )

5,000+

优质数据集

54 个

任务类型

进入经典数据集