five

ppbrown/tokenspace

收藏
Hugging Face2024-03-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ppbrown/tokenspace
下载链接
链接失效反馈
官方服务:
资源简介:
该目录包含用于浏览CLIP ViT-L/14模型的token space的工具。主要工具包括用于命令行浏览单词及其邻近单词的calculate-distances.py脚本,以及绘制两个嵌入值的完整图表的graph-embeddings.py脚本。此外,还提供了生成嵌入文件的脚本generate-embeddings.py,以及相关的字典文件和嵌入文件。这些工具和文件主要用于研究和分析CLIP模型的token space。

该目录包含用于浏览CLIP ViT-L/14模型的token space的工具。主要工具包括用于命令行浏览单词及其邻近单词的calculate-distances.py脚本,以及绘制两个嵌入值的完整图表的graph-embeddings.py脚本。此外,还提供了生成嵌入文件的脚本generate-embeddings.py,以及相关的字典文件和嵌入文件。这些工具和文件主要用于研究和分析CLIP模型的token space。
提供机构:
ppbrown
原始信息汇总

数据集概述

主要工具

  • calculate-distances.py: 允许命令行浏览单词及其邻居。
  • graph-embeddings.py: 绘制两个嵌入值的完整图表。

文件说明

  • embeddings.safetensors: 生成的嵌入文件,需要与字典文件匹配。
  • dictionary: 字典文件,必须与嵌入文件匹配。
  • embeddings.allids.safetensors: 纯数字基础文件,不适用于需要匹配字典的程序。
  • dictionary.fullword: 从fullword.json提取的完整单词字典,包含约30,000个单词。
  • dictionary.huge: 包含超过300,000个单词的巨大字典文件。
  • fullword.json: 包含“一个单词,一个CLIP令牌ID”配对,优化用于实际输入的单词。

生成工具

  • generate-embeddings.py: 基于字典文件生成嵌入文件,需要几分钟运行时间。

注意事项

  • 使用嵌入文件时,必须使用匹配的字典文件。
  • 直接从CLIP模型中提取的张量不会给出正确的距离,因此需要计算并存储实际生成的嵌入权重。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作