mesolitica/google-image-malaysia-location-dedup
收藏Hugging Face2024-05-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mesolitica/google-image-malaysia-location-dedup
下载链接
链接失效反馈官方服务:
资源简介:
Google Image Malaysia Location Dedup数据集是一个用于图像特征提取的数据集,来源于马来西亚AI的Google图像爬取项目。该数据集经过去重处理,提供了50%相似度和60%相似度两个版本,分别去除了227937张和487301张图像。数据集中的图像被转换为嵌入向量,并使用MosaicML进行快速索引。
Google Image Malaysia Location Dedup数据集是一个用于图像特征提取的数据集,来源于马来西亚AI的Google图像爬取项目。该数据集经过去重处理,提供了50%相似度和60%相似度两个版本,分别去除了227937张和487301张图像。数据集中的图像被转换为嵌入向量,并使用MosaicML进行快速索引。
提供机构:
mesolitica
原始信息汇总
数据集概述
数据集名称
Google Image Malaysia Location Dedup
原始数据集链接
https://huggingface.co/datasets/malaysia-ai/crawl-google-image-malaysia-location
数据集处理详情
去重处理
-
50%相似度去重:
- 文件名:
dedup-0.5.jsonl - 去重后图像总数: 227,937
- 文件名:
-
60%相似度去重:
- 文件名:
dedup-0.6.jsonl - 去重后图像总数: 487,301
- 文件名:
数据集文件信息
filename: 原始仓库中的Parquet文件名selected_indices: 对应文件名的数据帧索引
特征提取
- 使用模型: https://huggingface.co/google/siglip-base-patch16-512
- 使用MosaicML进行快速索引



