atom-in-the-universe/cc-faces-150k
收藏数据集概述
数据集名称
- 名称: URLs of images containing faces from Common Crawl
数据集内容
- 描述: 该数据集包含从Common Crawl中提取的含有面部的图像URL。
数据处理
-
过滤条件: 仅选择图像中第一个面部,并且面部尺寸最小为40像素。
-
处理代码: python from datasets import load_dataset
def filter_bbox(bbox, min_size=40): x1, x2, y1, y2 = bbox return x2 - x1 >= min_size and y2 - y1 >= min_size
ds = load_dataset(atom-in-the-universe/cc-faces-150k) ds = ds.map(lambda sample: {faces: sample[faces][0]}) ds = ds.filter(lambda sample: filter_bbox(sample[faces])) ds.to_parquet(cc_faces.parquet)
数据集下载与使用
-
下载工具: 使用Vanga的img2dataset fork进行下载。
-
下载脚本: python from img2dataset import download import os
output_dir = os.path.abspath("bench")
download( processes_count=16, thread_count=32, url_list="cc_faces.parquet", image_size=256, output_folder=output_dir, output_format="files", input_format="parquet", url_col="url", caption_col="alt", enable_wandb=True, number_sample_per_shard=1000, distributor="multiprocessing", box_col=faces )
许可证
- 许可证: Apache-2.0



