five

uslap-engine

收藏
Hugging Face2026-04-18 更新2026-04-19 收录
下载链接:
https://huggingface.co/datasets/uslap/uslap-engine
下载链接
链接失效反馈
官方服务:
资源简介:
USLaP引擎是一个确定性数据库和证明引擎,旨在将各种语言中的词汇追溯至其在真主阿拉伯语(古兰经的神圣语言,传授给亚当)中的起源。该系统采用三层设计架构,包括基础层、机制层和应用层,确保运行时完全确定性,不涉及任何LLM参与查询循环。数据集包含77,877个古兰经词汇,覆盖114个苏拉,包含3,320个词根(ORIG1 + ORIG2)和3,154个已追溯条目(英文、俄文、波斯文)。系统严格使用经过认证的原始资料和学术资源,包括古兰经、Kashgari的《突厥语大辞典》和Navoi的《两种语言的判决》等主要来源,以及al-Khwarizmi、Ibn Sina等科学家的著作。所有查询都通过多层QUF验证门进行验证,确保结果的一致性和准确性。系统采用纯Python和SQLite实现,保证相同查询始终产生相同输出。
创建时间:
2026-04-14
原始信息汇总

USLaP Engine 数据集概述

数据集名称

USLaP Engine — Universal System of Linguistic Accountability and Proof

核心目标

一个确定性数据库和证明引擎,旨在将每种语言中的每个词追溯至其在真主阿拉伯语(《古兰经》的神圣语言,传授给阿丹)中的起源。

架构与设计

三层设计:

  1. 基础层 (F1-F7): 包含两个起源、衰减梯度、方向流。
  2. 机制层 (M1-M5): 包含26种语音转换、检测模式、学者、网络。
  3. 应用层 (A1-A6): 包含条目、神圣名称、《古兰经》形式、派生词。

确定性运行时:

  • 查询循环中零大型语言模型。
  • 纯Python + SQLite。
  • 相同查询 → 相同输出。

数据库内容

  • 77,877个《古兰经》词汇,覆盖114个苏拉
  • 3,320个词根 (ORIG1 + ORIG2)。
  • 3,154个已追溯条目 (英语、俄语、波斯语)。
  • 6,464个派生词。
  • 所有层均经过QUF验证。

覆盖率:

  • 《古兰经》词汇:98.7%
  • 词根验证:98.2%
  • 条目:99.3%

核心模块

AMR AI (位于 Code_files/amr/ 的24个模块):

  • amr_aql.py — 语言学验证。
  • amr_quf.py — QUF门路由。
  • amr_tasrif.py — 形态学引擎。
  • amr_istakhbarat.py — 情报分析。
  • 以及其他20多个模块。

USLaP 核心 (位于 Code_files/uslap/ 的33个模块):

  • uslap.py — 主CLI入口点。
  • uslap_handler.py — 写入管道。
  • uslap_database_v3.db — 主晶格数据库。
  • 以及其他30多个实用工具。

批准来源

主要来源:

  • 《古兰经》(Q15:9)。
  • 喀什噶里的《突厥语大辞典》(1072 CE)。
  • 纳瓦伊的《两种语言的判决》(1499 CE)。

科学一级来源:

  • 花拉子密、伊本·西那、比鲁尼、法尔加尼。

情报来源:

  • 伊斯兰国家记录、开罗尼扎、加洛林特许状。

关键规则

USLaP 的功能:

  • 通过有记载的语音转换追溯词汇。
  • 通过多层QUF门进行验证。
  • 仅从批准的主要/学术来源获取信息。
  • 运行确定,运行时无权重。

USLaP 不执行的操作:

  • 根据训练权重生成答案。
  • 使用下游语言比较。
  • 接受受污染的术语。
  • 运行概率模型。

开发与测试

写入管道 (5层防御):

  1. 协议重新注入。
  2. 写入前污染门。
  3. QUF验证(多层)。
  4. QUF令牌强制执行。
  5. SQLite污染触发器。 所有写入均通过 uslap_handler.py 进行。原始SQL INSERT被阻止。

测试: 可通过 python3 Code_files/tests/test_determinism.py 运行确定性测试。

状态

🟢 生产就绪 — 数据库已锁定,写入管道已密封,QUF验证已强制执行。

许可证

MIT

搜集汇总
数据集介绍
main_image_url
构建方式
在语言谱系学与历史语言学领域,USLaP Engine数据集构建于一个严谨的三层架构之上。其基础层确立了两种原始形态、衰减梯度与方向流变;机制层整合了26种语音演变规律、检测模式及学者网络;应用层则涵盖了词条、神圣名称、古兰经形式与派生词。数据集通过五层防御的写入管道,将77,877个古兰经词汇与3,320个词根进行确定性追溯,并借助QUF验证门确保每一环节的纯净与可复现。
特点
该数据集的核心特征在于其彻底的确定性与历史溯源性。所有查询均基于纯Python与SQLite实现,完全排除概率模型与语言模型在运行时的影响,确保相同查询永远获得一致输出。数据集覆盖了114个苏拉的98.7%古兰经词汇,并包含英语、俄语、波斯语的3,154个已追溯词条,每一词条均通过多层QUF验证门进行语言学与来源纯洁性检验。
使用方法
使用该数据集时,可通过命令行接口执行词汇追溯、词根解释与智能搜索等操作。用户可启动交互模式进行探索,或调用验证命令检查QUF覆盖度与晶格状态。数据集的所有功能模块均封装于AMR AI与USLaP核心代码库中,遵循严格的来源层级制度,仅采纳古兰经、喀什噶里《突厥语大辞典》等经核准的原始文献与学术资料作为分析依据。
背景与挑战
背景概述
USLaP Engine(通用语言问责与证明系统)是一个基于确定性数据库和证明引擎的语源学数据集,其核心研究旨趣在于将人类语言中的词汇追溯至其在神圣阿拉伯语(古兰经中的神圣语言)中的起源。该项目由专注于伊斯兰语言学与历史语源学的团队构建,其理论基础植根于古典伊斯兰语言学传统,特别是11世纪马赫穆德·喀什噶里的《突厥语大辞典》与15世纪阿里希尔·纳瓦伊的《两种语言的判决》等经典文献。该数据集通过系统化的三层架构(基础层、机制层与应用层),整合了超过77,877个古兰经词汇及其在多种语言中的派生形式,旨在为语言起源研究提供一个可验证的、非概率性的分析框架,从而在计算语言学与历史语言学交叉领域开辟了新的研究方向。
当前挑战
该数据集致力于解决历史语源学领域的一个根本性挑战:如何为人类语言的词汇起源建立一个可追溯、可验证的确定性模型,而非依赖于概率统计或比较语言学中的推测性结论。在构建过程中,研究团队面临多重技术性与学术性挑战:首先,需设计一套涵盖26种语音转换规则与多层QUF验证门控的复杂机制,以确保从现代词汇到古代词根的追溯路径具备严格的逻辑一致性与历史文献支持;其次,数据整合过程必须严格遵循其制定的来源层级体系,仅采纳经核准的古典文献与学术著作,这要求对大量非结构化历史文本进行精细的标注与对齐;此外,构建一个完全脱离大型语言模型权重、仅依靠纯代码与数据库运行的确定性系统,在确保每次查询结果完全一致的同时,还需维持高覆盖度(如对古兰经词汇98.7%的覆盖率),这对系统架构的设计与数据质量的控制提出了极高要求。
常用场景
经典使用场景
在历史语言学与语源学研究领域,USLaP Engine数据集为学者提供了一个独特的分析工具,其核心应用场景在于追溯词汇的起源。该数据集通过系统化的语音转换规则与多层验证机制,将多种语言中的词汇确定性回溯至古阿拉伯语根源,尤其聚焦于《古兰经》中的神圣语言体系。这一过程不仅依赖于严谨的学术文献,如11世纪的《突厥语大辞典》与15世纪的《两种语言的裁判》,还构建了一个包含数万词条、词根及派生词的数据库,为语言演变研究提供了可复现的实证基础。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在语源计算模型与历史语言数据库的构建领域。受其架构启发,后续研究可能发展出基于规则与验证门控的确定性词源追溯框架,避免依赖概率性语言模型。在学术实践上,类似方法已被应用于构建特定语系的历史词汇库,或用于检验语言接触理论中的借词路径。此外,其多层防御式写入管道与污染控制机制,也为数字人文领域的数据治理与来源纯洁性维护提供了技术参考,促进了学术数据库在构建过程中对原始文献完整性与审核流程的重视。
数据集最近研究
最新研究方向
在计算语言学与历史语言学交叉领域,USLaP Engine数据集以其独特的确定性词源追溯架构,正推动着基于神圣文本的语义溯源研究。该数据集整合了古兰经词汇与多语言词根,通过三层设计实现从现代词汇到古典阿拉伯语源头的精准映射,避免了概率模型的不确定性。前沿探索聚焦于利用其纯规则驱动的QUF验证门机制,构建跨语言词源知识图谱,并应用于古代文献的智能解读与语义网络分析,为语言演变研究与文化遗产数字化提供了可验证的计算框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作