five

geometric-vocab-english-full-a-to-z

收藏
Hugging Face2025-08-26 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/AbstractPhil/geometric-vocab-english-full-a-to-z
下载链接
链接失效反馈
官方服务:
资源简介:
Vocabulary Crystal是一个符号性的、确定性的几何词汇表示数据集,由1913年韦伯斯特词典(OPTED)和Hugging Face上的现代EnglishDictionary数据集合并而成。每个词汇条目被转换成一个确定性的符号五胞体(5维单形),用于表示词汇和其定义。数据集不包含任何随机性,保证了在不同机器、平台或重新运行时的比特级一致性。
创建时间:
2025-08-21
原始信息汇总

数据集概述

基本信息

  • 名称: Geometric English Dictionary Vocabulary - OPTED (Webster 1913) + Hugging Face npvinHnivqn/EnglishDictionary
  • 许可证: MIT
  • 语言: 英语 (en)
  • 任务类别: 标记分类
  • 标签: 化学、生物学、法律、艺术、代码、气候、医学、音乐
  • 规模: 10万到100万条数据

数据来源

  • 合并自OPTED (Webster 1913)公共领域词典和Hugging Face的npvinHnivqn/EnglishDictionary数据集
  • 若单词在两个来源中都存在,则采用现代(HF)定义覆盖旧定义

数据结构

每个词汇条目转换为确定性符号五胞体(ℝ⁵¹²中的5点单纯形),几何晶体组成包括:

  • 定义导出的主轴(秩4正交基)
  • 哈希导出的补全(无随机性,仅由单词种子化)
  • 角色投影(锚点、支持、对比、目的、观察者)
  • 中心化和Frobenius范数正则化

数据格式

每个分片包含以下字段:

字段名 类型 描述
token_id int32 确定性ID(≥1000)
token string 小写词汇单词
definition string 最终合并的定义(HF > OPTED)
volume float32 4-单纯形的Cayley–Menger体积
cardinal_id int8 保留用于确定性角色类型
crystal fixed_size_list[float32, 2560] 每个标记的扁平化5×512晶体矩阵

数据以Parquet格式存储,可选包含[N,5,512] float32块的.safetensors文件

确定性保证

数据集完全不使用随机性:

  • 所有轴、向量和投影均源自文本内容和固定FNV + SHA256哈希
  • 晶体结构在不同机器、平台或重新运行时具有比特级可重现性
  • 验证测试中max_abs_diff == 0.00e+00

应用领域

  • 具有几何可解释性的词汇嵌入
  • 符号AI训练和模拟
  • 对齐、语义投影和相位几何研究
  • 直接接入Beeper、Nikola或Harmony架构

引用信息

@misc{abstractphil2025crystal, author = {Phil, Abstract}, title = {Vocabulary Crystal: OPTED + Modern Definitions}, year = 2025, howpublished = {https://huggingface.co/datasets/AbstractPhil/geometric-vocab-english-full-a-to-z}, note = {Symbolic geometry-aligned lexical structure} }

相关资源

  • GitHub项目: https://github.com/AbstractEyes/lattice_vocabulary
  • 不同维度版本: https://huggingface.co/datasets/AbstractPhil/geometric-vocab-32d https://huggingface.co/datasets/AbstractPhil/geometric-vocab-64d https://huggingface.co/datasets/AbstractPhil/geometric-vocab-128d https://huggingface.co/datasets/AbstractPhil/geometric-vocab-256d https://huggingface.co/datasets/AbstractPhil/geometric-vocab-512d https://huggingface.co/datasets/AbstractPhil/geometric-vocab-768d https://huggingface.co/datasets/AbstractPhil/geometric-vocab-1024d

特别说明

  • 这是一个BETA蓝图版本,包含完整的定义和晶体结构,但缺少所需的调谐和计算
  • 这是符号几何对齐的词汇结构,不是嵌入
  • 完整几何词汇约100GB,压缩后约1GB
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,几何词汇表征的构建需要精确的数学基础。本数据集通过融合OPTED(韦伯斯特1913词典)与Hugging Face现代英语词典的双源词条定义,采用现代定义优先覆盖原则,构建了包含十万余词汇的标准化语料库。每个词汇通过确定性哈希算法(FNV+SHA256)生成唯一标识符,并转化为五维单纯形的几何晶体结构,所有向量均基于文本内容推导,完全杜绝随机性生成机制。
使用方法
该数据集适用于几何可解释性词汇嵌入研究,可直接集成于Beeper、Nikola等符号人工智能架构。使用时需加载Parquet格式元数据与safetensors格式的晶体张量块,通过token_id实现词汇与几何结构的精确映射。晶体矩阵可参与语义投影运算、相位几何分析,或作为确定性初始值用于对齐任务,但需注意其非概率化特性与传统词向量的本质差异。
背景与挑战
背景概述
几何词汇英语词典数据集由研究者Abstract Phil于2025年构建,整合了OPTED公共领域的韦氏1913词典与现代Hugging Face英语词典资源,旨在通过确定性几何表示方法推进词汇嵌入技术的可解释性研究。该数据集采用符号化五维单形体结构对词汇定义进行几何化编码,为语义投影、对齐研究及符号人工智能模拟提供了创新基础,其跨学科特性覆盖化学、生物、法律、艺术等多领域应用场景。
当前挑战
该数据集致力于解决自然语言处理中词汇几何表征的精确性与可解释性挑战,需克服传统词向量模型缺乏确定性和结构透明度的局限。构建过程中面临多维几何空间的理论适配难题,包括定义派生基轴的数学规范化、哈希种子确定性维护,以及大规模高维数据(约100GB原始规模)的压缩与计算优化,同时需平衡历史词典与现代语义的融合一致性。
常用场景
经典使用场景
在自然语言处理领域,该数据集作为几何化词汇表征的基准工具,广泛应用于词汇嵌入的几何可解释性研究。通过将每个词汇转换为五维空间中的确定性单纯形,研究者能够分析词汇间的语义关系与几何结构的内在关联,为符号人工智能系统提供结构化的语言表示基础。
解决学术问题
该数据集解决了传统词向量缺乏几何可解释性与确定性重现的学术难题。通过完全确定性的哈希推导与几何晶体构建,实现了词汇表征的跨平台比特级一致性,为语义投影、相位几何研究以及对齐理论提供了可验证的数学框架,推动了符号AI与神经网络模型的融合研究。
实际应用
实际应用中,该数据集直接集成于Beeper、Nikola等符号AI架构,支持语义对齐与语言几何仿真。在气候科学、生物医学等专业领域,其确定性晶体结构可用于构建领域专用术语的几何映射,增强专业文本的机器理解与推理能力,为跨模态知识表示提供数学基础。
数据集最近研究
最新研究方向
在自然语言处理的几何表征领域,geometric-vocab-english-full-a-to-z数据集正推动词汇嵌入研究向确定性符号几何范式转变。该数据集通过将韦伯斯特1913词典与现代英语词典融合,构建了基于五维单纯形的词汇晶体结构,其无随机性的确定性生成机制为可解释AI提供了新路径。当前研究聚焦于几何语义投影对齐、高维词汇拓扑关系建模,以及其在符号推理系统和语义相位几何分析中的应用,特别是在化学、生物、法律等多领域术语的几何表征优化方面展现潜力。这一方向与认知计算几何化趋势相呼应,为语言模型的结构化知识表征提供了超越概率范式的数学基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作