five

THETA

收藏
Hugging Face2026-02-14 更新2026-02-15 收录
下载链接:
https://huggingface.co/datasets/CodeSoulco/THETA
下载链接
链接失效反馈
官方服务:
资源简介:
THETA-embeddings 是一个预计算的稠密向量嵌入数据集,由专为社会学和社会科学文本微调的 THETA 模型生成。该数据集包含三种设置下的嵌入向量:zero_shot(未经微调的基础 Qwen3-Embedding 模型生成的嵌入)、supervised(通过标签引导的对比学习训练的 LoRA 适配模型生成的嵌入)和 unsupervised(通过 SimCSE 训练的 LoRA 适配模型生成的嵌入)。数据集包含两种模型尺寸(0.6B 和 4B),分别对应 896 维和 2560 维的嵌入向量,存储为 .npy 格式。源数据集包括 germanCoal、FCPB、socialTwitter、hatespeech 和 mental_health。适用于特征提取、文本分类等任务,特别适合社会学和社会科学领域的文本分析。数据集采用 MIT 许可证发布。
创建时间:
2026-02-12
原始信息汇总

THETA Embeddings 数据集概述

数据集基本信息

  • 数据集名称: THETA Embeddings
  • 发布者: CodeSoulco
  • 许可证: MIT License
  • 支持语言: 中文 (zh)、英文 (en)、德文 (de)、法文 (fr)
  • 任务类别: 特征提取 (feature-extraction)、文本分类 (text-classification)
  • 标签: embeddings、sociology、retrieval、sentence-transformers、numpy、qwen3

数据集描述

该数据集包含由 THETA 模型生成的预计算稠密向量嵌入。THETA 是一个针对社会学和社会科学文本,基于 Qwen3-Embedding 进行微调的领域特定嵌入模型。

嵌入内容与结构

数据集包含在三种设置下生成的稠密向量嵌入:

  1. zero_shot: 来自未经微调的基础 Qwen3-Embedding 模型的嵌入。
  2. supervised: 来自经过标签引导对比学习训练的 LoRA 适配模型的嵌入。
  3. unsupervised: 来自经过 SimCSE 训练的 LoRA 适配模型的嵌入。

存储库结构

数据集按模型规模和嵌入类型组织,结构如下:

CodeSoulco/THETA-embeddings/ ├── 0.6B/ │ ├── zero_shot/ │ ├── supervised/ │ └── unsupervised/ └── 4B/ ├── zero_shot/ ├── supervised/ └── unsupervised/

嵌入模型规格

模型 嵌入维度 文件格式
Qwen3-Embedding-0.6B 896 .npy
Qwen3-Embedding-4B 2560 .npy

源数据集

生成嵌入所使用的源数据集包括:germanCoal, FCPB, socialTwitter, hatespeech, mental_health。

使用方法

直接加载示例

python import numpy as np embeddings = np.load("0.6B/zero_shot/germanCoal_zero_shot_embeddings.npy") print(embeddings.shape) # (num_samples, 896)

通过 Hugging Face Hub 下载

python from huggingface_hub import hf_hub_download import numpy as np path = hf_hub_download( repo_id="CodeSoulco/THETA-embeddings", filename="0.6B/supervised/socialTwitter_supervised_embeddings.npy", repo_type="dataset" ) embeddings = np.load(path)

相关资源

  • 模型 (LoRA 权重): https://huggingface.co/CodeSoulco/THETA

引用信息

如需引用,请使用以下 BibTeX 条目: bibtex @misc{theta2026, title={THETA: Textual Hybrid Embedding--based Topic Analysis}, author={CodeSoul}, year={2026}, publisher={Hugging Face}, url={https://huggingface.co/CodeSoulco/THETA} }

搜集汇总
数据集介绍
main_image_url
构建方式
在社会科学与计算语言学交叉领域,THETA嵌入数据集的构建体现了严谨的实证研究范式。该数据集基于领域专用的THETA嵌入模型生成,该模型是在Qwen3-Embedding基础架构上,针对社会学及社会科学文本进行微调而得的。其核心构建过程涉及对多个源数据集(包括germanCoal、FCPB、socialTwitter等)的文本进行向量化表征,并系统性地生成了三种不同训练范式下的嵌入结果:零样本设置下的基础模型嵌入、采用标签引导对比学习训练的监督式嵌入,以及基于SimCSE方法训练的无监督嵌入。这一多层次构建策略旨在为不同研究需求提供可比较的向量表征基础。
使用方法
为便利研究者的使用,THETA嵌入数据集设计了清晰且灵活的访问路径。用户可直接通过标准的NumPy库加载本地存储的.npy文件,快速获取预计算的嵌入矩阵。同时,数据集也支持通过Hugging Face Hub的专用API进行远程下载与加载,这一方式尤其适合在云端或协作环境中进行可复现的研究。在实际应用中,研究者可根据具体分析目标,选择相应模型规模(0.6B或4B)与训练范式(零样本、监督或无监督)下的嵌入文件。加载后的高维向量可直接用于下游任务,如文本分类、信息检索、聚类分析或作为复杂模型的特征输入,为社会科学文本的量化研究提供了即用的语义表示资源。
背景与挑战
背景概述
在数字人文与社会计算领域,文本嵌入技术已成为解析复杂社会现象的关键工具。THETA数据集由CodeSoul团队于2026年构建,旨在为社会学与社会科学文本提供领域专用的向量表示。该数据集基于Qwen3-Embedding模型,通过监督与无监督的对比学习策略进行微调,生成了涵盖多语言社会文本的预计算嵌入。其核心研究问题聚焦于如何提升社会语境下语义表示的准确性与判别力,从而推动社会媒体分析、心理健康监测及仇恨言论检测等应用的发展,为跨文化社会研究提供了重要的数据基础。
当前挑战
THETA数据集致力于解决社会学文本嵌入中的领域适应性问题,其核心挑战在于捕捉社会语境中细微的情感、文化与意识形态差异。构建过程中,团队需整合异构的社会数据集,如germanCoal与socialTwitter,并处理多语言文本的语义对齐。此外,在监督设置下,依赖高质量的人工标注以引导对比学习;而无监督设置则需应对社会文本中固有的噪声与歧义,确保嵌入空间的判别性不受损害。这些挑战共同指向了社会计算中语义表示的可泛化性与鲁棒性难题。
常用场景
经典使用场景
在社会学与社会科学文本分析领域,THETA数据集通过预计算的密集向量嵌入,为研究者提供了高效的语义表示工具。其经典使用场景聚焦于文本特征提取与分类任务,例如利用监督或非监督设置下的嵌入,对社交媒体言论、公共政策文本或心理健康讨论进行主题聚类与情感倾向分析。该数据集支持跨语言(中、英、德、法)处理,使得学者能够基于统一的向量空间,比较不同文化背景下的社会现象表达差异。
解决学术问题
THETA数据集致力于解决社会科学研究中文本语义表示粒度不足与领域适应性弱的常见问题。通过基于Qwen3-Embedding的领域微调,该数据集提供了零样本、监督与无监督三种嵌入设置,有效缓解了传统嵌入模型在社会学专业术语和语境理解上的偏差。其意义在于提升了社会文本挖掘的准确性,支持更精细的群体态度测量、话语模式识别以及跨文化比较研究,推动了计算社会科学方法的发展。
实际应用
在实际应用层面,THETA数据集可服务于公共政策评估、社会舆情监测与心理健康支持系统。例如,政府部门可利用其嵌入分析公众对能源政策(如germanCoal数据集)的反馈;媒体机构能借助社交媒体文本嵌入追踪仇恨言论或社会运动趋势;临床研究则可基于心理健康文本的语义向量,辅助识别危机信号并优化干预策略。这些应用体现了数据驱动决策在社会科学领域的深化。
数据集最近研究
最新研究方向
在社会计算与数字人文领域,文本嵌入技术正成为解析复杂社会现象的关键工具。THETA数据集通过提供基于社会学文本的预计算嵌入向量,为研究者探索社会议题的语义表征开辟了新路径。当前前沿研究聚焦于利用其监督与无监督嵌入设置,结合对比学习与SimCSE方法,深入挖掘社会媒体话语、公共政策文本及心理健康语料中的潜在模式。这些嵌入向量支持跨语言社会比较分析,助力于仇恨言论检测、社会网络动态建模等热点议题,推动了社会科学研究的计算化转型,为理解数字化时代的社会结构提供了可复现的量化基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作