mesolitica/google-image-malaysian-vehicle-dedup
收藏Hugging Face2024-05-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mesolitica/google-image-malaysian-vehicle-dedup
下载链接
链接失效反馈官方服务:
资源简介:
Google Image Malaysian Vehicle Dedup数据集是一个用于图像特征提取的数据集。该数据集来源于一个原始数据集,并进行了70%的去重处理,共去重了97598张图像。去重后的数据以JSONL格式存储,包含了文件名、关键词、编号以及选中的索引等信息。数据集还使用了Google的SigLIP模型进行嵌入转换,并使用了MosaicML进行快速索引。
Google Image Malaysian Vehicle Dedup数据集是一个用于图像特征提取的数据集。该数据集来源于一个原始数据集,并进行了70%的去重处理,共去重了97598张图像。去重后的数据以JSONL格式存储,包含了文件名、关键词、编号以及选中的索引等信息。数据集还使用了Google的SigLIP模型进行嵌入转换,并使用了MosaicML进行快速索引。
提供机构:
mesolitica
原始信息汇总
数据集概述
数据集名称
Google Image Malaysian Vehicle Dedup
原始数据集链接
https://huggingface.co/datasets/malaysia-ai/crawl-google-image-malaysian-vehicle
数据集处理
- 去重操作:对70%相似度的图像进行去重处理。
- 去重结果:去重后的图像总数为97,598张。
数据集文件
- 文件名:
dedup-0.7.jsonl
数据集格式
- 文件格式:Parquet
- 示例文件名:
train-00075-of-00165-c0ebcc169b1f62d2.parquet - 数据索引:提供了一个数据帧的索引列表。
数据集任务类别
- 任务类别:图像特征提取
数据集嵌入处理
- 嵌入模型:使用https://huggingface.co/google/siglip-base-patch16-512进行嵌入转换。
- 处理工具:使用MosaicML进行快速索引。



