ppbrown/tokenspace

Name: ppbrown/tokenspace
Creator: ppbrown
Published: 2024-03-25 03:32:14
License: 暂无描述

Hugging Face2024-03-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ppbrown/tokenspace

下载链接

链接失效反馈

官方服务：

资源简介：

该目录包含用于浏览CLIP ViT-L/14模型的token space的工具。主要工具包括用于命令行浏览单词及其邻近单词的calculate-distances.py脚本，以及绘制两个嵌入值的完整图表的graph-embeddings.py脚本。此外，还提供了生成嵌入文件的脚本generate-embeddings.py，以及相关的字典文件和嵌入文件。这些工具和文件主要用于研究和分析CLIP模型的token space。

提供机构：

ppbrown

原始信息汇总

数据集概述

主要工具

calculate-distances.py: 允许命令行浏览单词及其邻居。
graph-embeddings.py: 绘制两个嵌入值的完整图表。

文件说明

embeddings.safetensors: 生成的嵌入文件，需要与字典文件匹配。
dictionary: 字典文件，必须与嵌入文件匹配。
embeddings.allids.safetensors: 纯数字基础文件，不适用于需要匹配字典的程序。
dictionary.fullword: 从fullword.json提取的完整单词字典，包含约30,000个单词。
dictionary.huge: 包含超过300,000个单词的巨大字典文件。
fullword.json: 包含“一个单词，一个CLIP令牌ID”配对，优化用于实际输入的单词。

生成工具

generate-embeddings.py: 基于字典文件生成嵌入文件，需要几分钟运行时间。

注意事项

使用嵌入文件时，必须使用匹配的字典文件。
直接从CLIP模型中提取的张量不会给出正确的距离，因此需要计算并存储实际生成的嵌入权重。

5,000+

优质数据集

54 个

任务类型

进入经典数据集