shamotskyi/unsymbols-lg-sim-symbols-lgdedup
收藏Hugging Face2026-04-17 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/shamotskyi/unsymbols-lg-sim-symbols-lgdedup
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: name
dtype: string
- name: hash_average
dtype: string
- name: hash_phash
dtype: string
- name: hash_dhash
dtype: string
- name: hash_whash
dtype: string
- name: embeddings
list: float32
- name: faiss_sim_names
list: string
- name: faiss_sim_dists
list: float32
- name: min_faiss_dist
dtype: float32
- name: min_dhash_dist
dtype: int64
- name: hash_dhash_sim_names
list: string
- name: hash_dhash_sim_dists
list: int64
splits:
- name: train
num_bytes: 21897722
num_examples: 9100
download_size: 21460342
dataset_size: 21897722
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征项:
- 名称:字符串类型
- 平均哈希值(hash_average):字符串类型
- 感知哈希值(hash_phash):字符串类型
- 差异哈希值(hash_dhash):字符串类型
- 小波哈希值(hash_whash):字符串类型
- 嵌入向量(embeddings):float32类型列表
- FAISS(Facebook AI Similarity Search)相似度匹配名称列表(faiss_sim_names):字符串类型列表
- FAISS(Facebook AI Similarity Search)相似度匹配距离列表(faiss_sim_dists):float32类型列表
- 最小FAISS相似度距离(min_faiss_dist):float32类型
- 最小差异哈希距离(min_dhash_dist):int64类型
- 差异哈希相似度匹配名称列表(hash_dhash_sim_names):字符串类型列表
- 差异哈希相似度匹配距离列表(hash_dhash_sim_dists):int64类型列表
数据划分:
- 训练集(train):
字节占用:21897722
样本数量:9100
下载大小:21460342
数据集总大小:21897722
配置项:
- 默认配置(default):
数据文件:
- 训练集(train):
文件路径:data/train-*
提供机构:
shamotskyi



