THETA
收藏THETA Embeddings 数据集概述
数据集基本信息
- 数据集名称: THETA Embeddings
- 发布者: CodeSoulco
- 许可证: MIT License
- 支持语言: 中文 (zh)、英文 (en)、德文 (de)、法文 (fr)
- 任务类别: 特征提取 (feature-extraction)、文本分类 (text-classification)
- 标签: embeddings、sociology、retrieval、sentence-transformers、numpy、qwen3
数据集描述
该数据集包含由 THETA 模型生成的预计算稠密向量嵌入。THETA 是一个针对社会学和社会科学文本,基于 Qwen3-Embedding 进行微调的领域特定嵌入模型。
嵌入内容与结构
数据集包含在三种设置下生成的稠密向量嵌入:
- zero_shot: 来自未经微调的基础 Qwen3-Embedding 模型的嵌入。
- supervised: 来自经过标签引导对比学习训练的 LoRA 适配模型的嵌入。
- unsupervised: 来自经过 SimCSE 训练的 LoRA 适配模型的嵌入。
存储库结构
数据集按模型规模和嵌入类型组织,结构如下:
CodeSoulco/THETA-embeddings/ ├── 0.6B/ │ ├── zero_shot/ │ ├── supervised/ │ └── unsupervised/ └── 4B/ ├── zero_shot/ ├── supervised/ └── unsupervised/
嵌入模型规格
| 模型 | 嵌入维度 | 文件格式 |
|---|---|---|
| Qwen3-Embedding-0.6B | 896 | .npy |
| Qwen3-Embedding-4B | 2560 | .npy |
源数据集
生成嵌入所使用的源数据集包括:germanCoal, FCPB, socialTwitter, hatespeech, mental_health。
使用方法
直接加载示例
python import numpy as np embeddings = np.load("0.6B/zero_shot/germanCoal_zero_shot_embeddings.npy") print(embeddings.shape) # (num_samples, 896)
通过 Hugging Face Hub 下载
python from huggingface_hub import hf_hub_download import numpy as np path = hf_hub_download( repo_id="CodeSoulco/THETA-embeddings", filename="0.6B/supervised/socialTwitter_supervised_embeddings.npy", repo_type="dataset" ) embeddings = np.load(path)
相关资源
- 模型 (LoRA 权重): https://huggingface.co/CodeSoulco/THETA
引用信息
如需引用,请使用以下 BibTeX 条目: bibtex @misc{theta2026, title={THETA: Textual Hybrid Embedding--based Topic Analysis}, author={CodeSoul}, year={2026}, publisher={Hugging Face}, url={https://huggingface.co/CodeSoulco/THETA} }




