five

opendiffusionai/cc12m-2mp-realistic

收藏
Hugging Face2025-03-19 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/opendiffusionai/cc12m-2mp-realistic
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个从CC12m数据集衍生出的子集,包含的图像大小介于2百万像素到4百万像素之间。该数据集适用于对图像数量有较高要求,而对图像质量要求不是很高的场景。数据集经过AI模型处理,去除了多数带水印的图片和黑白照片。请注意,这个数据集不是手工筛选的,因此可能包含一些质量较低的图片。数据集提供了四种不同的标题选项:LLaVA长格式、LLaVA短格式、Moondream2b(较短,但内容不同于以上两种)和WD14 v3(标签风格)。用户可以一次性下载整个数据集,然后使用提供的工具来提取不同风格的标题。

This is a subset of the CC12m dataset, containing images sized between 2mp and 4mp. The dataset is intended for scenarios where a higher number of images is needed and slightly lower quality is acceptable. The dataset has been processed with AI models to remove watermarked and black-and-white photos. Please note that this dataset is not hand curated, so it may contain some low-quality images. The dataset offers four different caption styles: LLaVA long format, LLaVA short format, Moondream2b (shortish, but different content from the above), and WD14 v3 (tag style). Users can download the entire dataset once and then use the provided tool to extract different caption styles.
提供机构:
opendiffusionai
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作