THETA

Hugging Face2026-02-14 更新2026-02-15 收录

下载链接：

https://huggingface.co/datasets/CodeSoulco/THETA

下载链接

链接失效反馈

官方服务：

资源简介：

THETA-embeddings 是一个预计算的稠密向量嵌入数据集，由专为社会学和社会科学文本微调的 THETA 模型生成。该数据集包含三种设置下的嵌入向量：zero_shot（未经微调的基础 Qwen3-Embedding 模型生成的嵌入）、supervised（通过标签引导的对比学习训练的 LoRA 适配模型生成的嵌入）和 unsupervised（通过 SimCSE 训练的 LoRA 适配模型生成的嵌入）。数据集包含两种模型尺寸（0.6B 和 4B），分别对应 896 维和 2560 维的嵌入向量，存储为 .npy 格式。源数据集包括 germanCoal、FCPB、socialTwitter、hatespeech 和 mental_health。适用于特征提取、文本分类等任务，特别适合社会学和社会科学领域的文本分析。数据集采用 MIT 许可证发布。

创建时间：

2026-02-12

原始信息汇总

THETA Embeddings 数据集概述

数据集基本信息

数据集名称: THETA Embeddings
发布者: CodeSoulco
许可证: MIT License
支持语言: 中文 (zh)、英文 (en)、德文 (de)、法文 (fr)
任务类别: 特征提取 (feature-extraction)、文本分类 (text-classification)
标签: embeddings、sociology、retrieval、sentence-transformers、numpy、qwen3

数据集描述

该数据集包含由 THETA 模型生成的预计算稠密向量嵌入。THETA 是一个针对社会学和社会科学文本，基于 Qwen3-Embedding 进行微调的领域特定嵌入模型。

嵌入内容与结构

数据集包含在三种设置下生成的稠密向量嵌入：

zero_shot: 来自未经微调的基础 Qwen3-Embedding 模型的嵌入。
supervised: 来自经过标签引导对比学习训练的 LoRA 适配模型的嵌入。
unsupervised: 来自经过 SimCSE 训练的 LoRA 适配模型的嵌入。

存储库结构

数据集按模型规模和嵌入类型组织，结构如下：

CodeSoulco/THETA-embeddings/ ├── 0.6B/ │ ├── zero_shot/ │ ├── supervised/ │ └── unsupervised/ └── 4B/ ├── zero_shot/ ├── supervised/ └── unsupervised/

嵌入模型规格

模型	嵌入维度	文件格式
Qwen3-Embedding-0.6B	896	`.npy`
Qwen3-Embedding-4B	2560	`.npy`

源数据集

生成嵌入所使用的源数据集包括：germanCoal, FCPB, socialTwitter, hatespeech, mental_health。

使用方法

直接加载示例

python import numpy as np embeddings = np.load("0.6B/zero_shot/germanCoal_zero_shot_embeddings.npy") print(embeddings.shape) # (num_samples, 896)

通过 Hugging Face Hub 下载

python from huggingface_hub import hf_hub_download import numpy as np path = hf_hub_download( repo_id="CodeSoulco/THETA-embeddings", filename="0.6B/supervised/socialTwitter_supervised_embeddings.npy", repo_type="dataset" ) embeddings = np.load(path)

引用信息

如需引用，请使用以下 BibTeX 条目： bibtex @misc{theta2026, title={THETA: Textual Hybrid Embedding--based Topic Analysis}, author={CodeSoul}, year={2026}, publisher={Hugging Face}, url={https://huggingface.co/CodeSoulco/THETA} }

搜集汇总

数据集介绍

构建方式

在社会科学与计算语言学交叉领域，THETA嵌入数据集的构建体现了严谨的实证研究范式。该数据集基于领域专用的THETA嵌入模型生成，该模型是在Qwen3-Embedding基础架构上，针对社会学及社会科学文本进行微调而得的。其核心构建过程涉及对多个源数据集（包括germanCoal、FCPB、socialTwitter等）的文本进行向量化表征，并系统性地生成了三种不同训练范式下的嵌入结果：零样本设置下的基础模型嵌入、采用标签引导对比学习训练的监督式嵌入，以及基于SimCSE方法训练的无监督嵌入。这一多层次构建策略旨在为不同研究需求提供可比较的向量表征基础。

使用方法

为便利研究者的使用，THETA嵌入数据集设计了清晰且灵活的访问路径。用户可直接通过标准的NumPy库加载本地存储的.npy文件，快速获取预计算的嵌入矩阵。同时，数据集也支持通过Hugging Face Hub的专用API进行远程下载与加载，这一方式尤其适合在云端或协作环境中进行可复现的研究。在实际应用中，研究者可根据具体分析目标，选择相应模型规模（0.6B或4B）与训练范式（零样本、监督或无监督）下的嵌入文件。加载后的高维向量可直接用于下游任务，如文本分类、信息检索、聚类分析或作为复杂模型的特征输入，为社会科学文本的量化研究提供了即用的语义表示资源。

背景与挑战

背景概述

在数字人文与社会计算领域，文本嵌入技术已成为解析复杂社会现象的关键工具。THETA数据集由CodeSoul团队于2026年构建，旨在为社会学与社会科学文本提供领域专用的向量表示。该数据集基于Qwen3-Embedding模型，通过监督与无监督的对比学习策略进行微调，生成了涵盖多语言社会文本的预计算嵌入。其核心研究问题聚焦于如何提升社会语境下语义表示的准确性与判别力，从而推动社会媒体分析、心理健康监测及仇恨言论检测等应用的发展，为跨文化社会研究提供了重要的数据基础。

当前挑战

THETA数据集致力于解决社会学文本嵌入中的领域适应性问题，其核心挑战在于捕捉社会语境中细微的情感、文化与意识形态差异。构建过程中，团队需整合异构的社会数据集，如germanCoal与socialTwitter，并处理多语言文本的语义对齐。此外，在监督设置下，依赖高质量的人工标注以引导对比学习；而无监督设置则需应对社会文本中固有的噪声与歧义，确保嵌入空间的判别性不受损害。这些挑战共同指向了社会计算中语义表示的可泛化性与鲁棒性难题。

常用场景

经典使用场景

在社会学与社会科学文本分析领域，THETA数据集通过预计算的密集向量嵌入，为研究者提供了高效的语义表示工具。其经典使用场景聚焦于文本特征提取与分类任务，例如利用监督或非监督设置下的嵌入，对社交媒体言论、公共政策文本或心理健康讨论进行主题聚类与情感倾向分析。该数据集支持跨语言（中、英、德、法）处理，使得学者能够基于统一的向量空间，比较不同文化背景下的社会现象表达差异。

解决学术问题

THETA数据集致力于解决社会科学研究中文本语义表示粒度不足与领域适应性弱的常见问题。通过基于Qwen3-Embedding的领域微调，该数据集提供了零样本、监督与无监督三种嵌入设置，有效缓解了传统嵌入模型在社会学专业术语和语境理解上的偏差。其意义在于提升了社会文本挖掘的准确性，支持更精细的群体态度测量、话语模式识别以及跨文化比较研究，推动了计算社会科学方法的发展。

实际应用

在实际应用层面，THETA数据集可服务于公共政策评估、社会舆情监测与心理健康支持系统。例如，政府部门可利用其嵌入分析公众对能源政策（如germanCoal数据集）的反馈；媒体机构能借助社交媒体文本嵌入追踪仇恨言论或社会运动趋势；临床研究则可基于心理健康文本的语义向量，辅助识别危机信号并优化干预策略。这些应用体现了数据驱动决策在社会科学领域的深化。

数据集最近研究

THETA

THETA Embeddings 数据集概述

数据集基本信息

数据集描述

嵌入内容与结构

存储库结构

嵌入模型规格

源数据集

使用方法

直接加载示例

通过 Hugging Face Hub 下载

相关资源

引用信息