ppbrown/tokenspace
收藏Hugging Face2024-03-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ppbrown/tokenspace
下载链接
链接失效反馈官方服务:
资源简介:
该目录包含用于浏览CLIP ViT-L/14模型的token space的工具。主要工具包括用于命令行浏览单词及其邻近单词的calculate-distances.py脚本,以及绘制两个嵌入值的完整图表的graph-embeddings.py脚本。此外,还提供了生成嵌入文件的脚本generate-embeddings.py,以及相关的字典文件和嵌入文件。这些工具和文件主要用于研究和分析CLIP模型的token space。
该目录包含用于浏览CLIP ViT-L/14模型的token space的工具。主要工具包括用于命令行浏览单词及其邻近单词的calculate-distances.py脚本,以及绘制两个嵌入值的完整图表的graph-embeddings.py脚本。此外,还提供了生成嵌入文件的脚本generate-embeddings.py,以及相关的字典文件和嵌入文件。这些工具和文件主要用于研究和分析CLIP模型的token space。
提供机构:
ppbrown
原始信息汇总
数据集概述
主要工具
- calculate-distances.py: 允许命令行浏览单词及其邻居。
- graph-embeddings.py: 绘制两个嵌入值的完整图表。
文件说明
- embeddings.safetensors: 生成的嵌入文件,需要与字典文件匹配。
- dictionary: 字典文件,必须与嵌入文件匹配。
- embeddings.allids.safetensors: 纯数字基础文件,不适用于需要匹配字典的程序。
- dictionary.fullword: 从fullword.json提取的完整单词字典,包含约30,000个单词。
- dictionary.huge: 包含超过300,000个单词的巨大字典文件。
- fullword.json: 包含“一个单词,一个CLIP令牌ID”配对,优化用于实际输入的单词。
生成工具
- generate-embeddings.py: 基于字典文件生成嵌入文件,需要几分钟运行时间。
注意事项
- 使用嵌入文件时,必须使用匹配的字典文件。
- 直接从CLIP模型中提取的张量不会给出正确的距离,因此需要计算并存储实际生成的嵌入权重。



