ox-ox/lace-semantic-compression
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/ox-ox/lace-semantic-compression
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
- fr
license: cc-by-4.0
tags:
- information-bottleneck
- vector-quantization
- edge-ai
- compression
- lora
- sms
- operational-ai
- defense
- medical
- industrial
datasets:
- ox-ox/lace-semantic-compression
metrics:
- domain-coherence
pipeline_tag: feature-extraction
---
# LACE — Latent Adaptive Compression Engine
**Semantic Compression Under Physical Channel Constraints:
Domain Emergence Without Cognitive Separation**
Théophile Lafargue · April 2026 · Patent FR2511116
---
## What this is
An experiment measuring what emerges when you force 198 operational
tasks through a discrete semantic bottleneck under LoRa/SMS constraints.
Result: 47 semantic concepts emerge spontaneously.
Domain clustering: real (mean coherence 68.4%, 16 concepts at 100%).
Retrieval/inference separation: not significant (permutation test p̂=0.61).
---
## Repo contents
- `tasks.json` — 198 operational tasks (defense, medical, industrial,
agriculture, SAR). Retrieval + inference, LoRa + SMS.
- `lace_v3.safetensors` — trained model weights
- `summary.txt` — full experimental results
- `paper.md` — white paper (arXiv submission pending endorsement)
---
## Architecture
Weighted BoW encoder → Spherical VQ codebook (K=512) → MLP decoder
Channel budget: 9 bits (log₂ 512), equivalent to a 50-byte LoRa frame.
Trained on Apple M3 Max 128GB, MLX framework. ~15 min training time.
---
## Key result
The bottleneck learns domain taxonomy, not cognitive type.
CONCEPT #385 — Medical, 83.3% coherence, 30 tasks.
CONCEPT #243 — Industrial, 78.6% coherence, 14 tasks.
CONCEPT #192 — Defense, 100% coherence, 3 tasks.
A pump failure and a seal leak cluster together.
A pump failure and a medical triage do not.
But a pump failure (retrieval) and a pump failure prediction (inference)
are not yet separated.
First layer of emergence = domain.
Second layer = open question.
---
## Related
Patent FR2511116 — Hybrid State-Preserving Gateway for LLM over 2G/SMS
llama.cpp PR #20075 — Synchronized SSM Checkpointing
arXiv preprint cs.LG — endorsement pending
ox-ox/mythos-character-distillation
提供机构:
ox-ox
搜集汇总
数据集介绍

构建方式
LACE(Latent Adaptive Compression Engine)数据集旨在探索物理信道约束下的语义压缩认知相变现象。该数据集精心构建了198个涵盖国防、医疗、工业及SAR/农业四大领域的操作性任务,每个任务均包含任务标识、信道类型(LoRa/SMS)、预算字节数、上下文、查询、最小化输出与智能化输出、任务类型(检索/推理)及智能信号。模型架构采用加权词袋编码器、球形向量量化码本(K=16–512)及MLP解码器,信道预算为4–9比特,等效于9–50字节的LoRa/SMS帧。在Apple M3 Max 128GB设备上基于MLX框架训练,每次运行约15分钟。
特点
该数据集的核心特点在于揭示了认知涌现的相变行为:当N/K比值低于约25–30的临界阈值时,向量量化码本书本能自发地将检索型与推理型通信分离至不同的Voronoi区域,无需显式监督。经验认知涌现定律N/K < C·d_cog(C_emp=0.391≈1/e)已在128个数据点上得到验证。K=16被确认为最优部署参数(p=0.0034),且认知结构源于操作性语言本身而非奖励模型。共有46个活跃码本,其中15个检索主导、15个推理主导、16个混合类型。
使用方法
使用本数据集时,用户可直接加载tasks.json文件获取198个任务实例及对应的信道约束和语义标签。推荐采用提供的lace_v3.safetensors预训练权重(K=512)作为起点,但生产环境建议将码本大小调整为K=16以获取最优性能。用户可参照论文中的实验设置,通过调整N/K比值观测认知相变现象,或利用原始句法特征提取认知可分离性指标d_cog(交叉验证准确率74.8%)。数据集采用CC BY 4.0许可,引用时请注明原始论文及Zenodo DOI。
背景与挑战
背景概述
LACE(Latent Adaptive Compression Engine)数据集由Théophile Lafargue于2026年创建,隶属于巴黎-萨克雷大学Pépite Paris-Saclay机构,旨在探索物理信道约束下的语义压缩机制。该数据集以198个真实操作任务为核心,涵盖国防、医疗、工业及搜救/农业四大领域,聚焦于LoRa和SMS等窄带通信场景中,矢量量化码本如何在不依赖显式监督的情况下,自发分离检索型和推理型通信。其研究揭示了认知涌现的相变规律,即当码本大小与任务数量之比低于临界阈值时,语义结构自然形成,这一发现为边缘人工智能中的高效通信提供了理论基石,并对认知科学与信息瓶颈理论产生深远影响。
当前挑战
LACE数据集所解决的领域挑战在于,传统压缩方法在极端带宽限制(如LoRa帧仅9–50字节)下无法保留语义可区分性,导致检索与推理任务在编码空间中混叠,降低下游任务性能。构建过程中,研究者面临两大难题:一是码本尺寸需精确调谐至最佳点(K=16),过大会掩盖认知相变现象(如v1中K=512未能发现分离效应);二是奖励模型的选择(随机奖励优于MiniLM)与认知结构的自发涌现无关,需通过大规模超参数扫描(128个K×N×D组合)验证临界比N/K≈25–30的普适性,同时确保结果经Bonferroni校正后仍具统计显著性。
常用场景
经典使用场景
LACE(Latent Adaptive Compression Engine)数据集的核心应用场景是研究在极端物理信道约束(如LoRa、SMS)下的语义压缩与认知涌现现象。该数据集包含198个来自国防、医疗、工业及搜救/农业领域的操作任务,每个任务均被编码为检索型或推理型通信,并配有严格的字节预算(4–9比特)。研究者在向量量化(VQ)框架下训练稀疏编码器–解码器架构,使得模型能够在极低带宽下高效压缩自然语言语义,同时保持任务执行的关键信息。经典用法在于通过调整码本大小K(16–512)与嵌入维度D,观察在不同压缩比率下,系统能否自发区分检索与推理两种通信模式,从而揭示语义处理的临界行为。
解决学术问题
该数据集针对的核心学术问题是:在物理带宽硬约束下,离散语义压缩系统是否能够涌现出认知分离现象——即无需显式监督,码本中的Voronoi区域自动划分出检索型和推理型通信单元。传统信息论与自然语言处理多关注无损或有损压缩的率失真边界,但极少探索压缩过程中语义结构与认知功能的自组织规律。LACE通过系统性扫描压缩比率(N/K比值),证实当该比值低于25–30的经验阈值时,系统发生相变,认知结构自发形成。这一发现填补了信息瓶颈理论与边缘智能之间的理论空白,为理解低资源环境下语言模型的认知涌现机制提供了定量实验证据,推动了人工智能中语义压缩与认知架构交叉领域的理论发展。
衍生相关工作
LACE数据集及其发现催生了多项后续经典工作。首先,研究者基于其相变理论提出了混合状态保持网关专利(FR2511116),旨在实现大语言模型在2G/SMS/LoRa/卫星链路上的推理部署。其次,相关工作如llama.cpp中的同步SSM检查点技术(PR #20075)与Mistral Small 4的MoE架构探索,均受到LACE对离散码本结构与认知功能分离机制的启发。此外,由同一团队提出的“神话角色蒸馏”方法(ox-ox/mythos-character-distillation)延续了语义压缩与认知涌现的研究脉络,尝试在更低码本维度下提取可解释的认知基元。这些工作共同构建了从理论发现到工程实践的知识闭环,推动了边缘认知计算领域的发展。
以上内容由遇见数据集搜集并总结生成



