five

atom-in-the-universe/cc-faces-150k

收藏
Hugging Face2023-06-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/atom-in-the-universe/cc-faces-150k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自Common Crawl的150k张包含人脸的图像。用户可以通过HuggingFace的`datasets`库或`img2dataset`工具下载和处理这些图像。数据集中的图像经过筛选,只保留第一个检测到的人脸,并且人脸的最小尺寸为40像素。
提供机构:
atom-in-the-universe
原始信息汇总

数据集概述

数据集名称

  • 名称: URLs of images containing faces from Common Crawl

数据集内容

  • 描述: 该数据集包含从Common Crawl中提取的含有面部的图像URL。

数据处理

  • 过滤条件: 仅选择图像中第一个面部,并且面部尺寸最小为40像素。

  • 处理代码: python from datasets import load_dataset

    def filter_bbox(bbox, min_size=40): x1, x2, y1, y2 = bbox return x2 - x1 >= min_size and y2 - y1 >= min_size

    ds = load_dataset(atom-in-the-universe/cc-faces-150k) ds = ds.map(lambda sample: {faces: sample[faces][0]}) ds = ds.filter(lambda sample: filter_bbox(sample[faces])) ds.to_parquet(cc_faces.parquet)

数据集下载与使用

  • 下载工具: 使用Vanga的img2dataset fork进行下载。

  • 下载脚本: python from img2dataset import download import os

    output_dir = os.path.abspath("bench")

    download( processes_count=16, thread_count=32, url_list="cc_faces.parquet", image_size=256, output_folder=output_dir, output_format="files", input_format="parquet", url_col="url", caption_col="alt", enable_wandb=True, number_sample_per_shard=1000, distributor="multiprocessing", box_col=faces )

许可证

  • 许可证: Apache-2.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作