ox-ox/lace-semantic-compression

Name: ox-ox/lace-semantic-compression
Creator: ox-ox
Published: 2026-04-10 14:33:15
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/ox-ox/lace-semantic-compression

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en - fr license: cc-by-4.0 tags: - information-bottleneck - vector-quantization - edge-ai - compression - lora - sms - operational-ai - defense - medical - industrial datasets: - ox-ox/lace-semantic-compression metrics: - domain-coherence pipeline_tag: feature-extraction --- # LACE — Latent Adaptive Compression Engine **Semantic Compression Under Physical Channel Constraints: Domain Emergence Without Cognitive Separation** Théophile Lafargue · April 2026 · Patent FR2511116 --- ## What this is An experiment measuring what emerges when you force 198 operational tasks through a discrete semantic bottleneck under LoRa/SMS constraints. Result: 47 semantic concepts emerge spontaneously. Domain clustering: real (mean coherence 68.4%, 16 concepts at 100%). Retrieval/inference separation: not significant (permutation test p̂=0.61). --- ## Repo contents - `tasks.json` — 198 operational tasks (defense, medical, industrial, agriculture, SAR). Retrieval + inference, LoRa + SMS. - `lace_v3.safetensors` — trained model weights - `summary.txt` — full experimental results - `paper.md` — white paper (arXiv submission pending endorsement) --- ## Architecture Weighted BoW encoder → Spherical VQ codebook (K=512) → MLP decoder Channel budget: 9 bits (log₂ 512), equivalent to a 50-byte LoRa frame. Trained on Apple M3 Max 128GB, MLX framework. ~15 min training time. --- ## Key result The bottleneck learns domain taxonomy, not cognitive type. CONCEPT #385 — Medical, 83.3% coherence, 30 tasks. CONCEPT #243 — Industrial, 78.6% coherence, 14 tasks. CONCEPT #192 — Defense, 100% coherence, 3 tasks. A pump failure and a seal leak cluster together. A pump failure and a medical triage do not. But a pump failure (retrieval) and a pump failure prediction (inference) are not yet separated. First layer of emergence = domain. Second layer = open question. --- ## Related Patent FR2511116 — Hybrid State-Preserving Gateway for LLM over 2G/SMS llama.cpp PR #20075 — Synchronized SSM Checkpointing arXiv preprint cs.LG — endorsement pending ox-ox/mythos-character-distillation

提供机构：

ox-ox

搜集汇总

数据集介绍

构建方式

LACE（Latent Adaptive Compression Engine）数据集旨在探索物理信道约束下的语义压缩认知相变现象。该数据集精心构建了198个涵盖国防、医疗、工业及SAR/农业四大领域的操作性任务，每个任务均包含任务标识、信道类型（LoRa/SMS）、预算字节数、上下文、查询、最小化输出与智能化输出、任务类型（检索/推理）及智能信号。模型架构采用加权词袋编码器、球形向量量化码本（K=16–512）及MLP解码器，信道预算为4–9比特，等效于9–50字节的LoRa/SMS帧。在Apple M3 Max 128GB设备上基于MLX框架训练，每次运行约15分钟。

特点

该数据集的核心特点在于揭示了认知涌现的相变行为：当N/K比值低于约25–30的临界阈值时，向量量化码本书本能自发地将检索型与推理型通信分离至不同的Voronoi区域，无需显式监督。经验认知涌现定律N/K < C·d_cog（C_emp=0.391≈1/e）已在128个数据点上得到验证。K=16被确认为最优部署参数（p=0.0034），且认知结构源于操作性语言本身而非奖励模型。共有46个活跃码本，其中15个检索主导、15个推理主导、16个混合类型。

使用方法

使用本数据集时，用户可直接加载tasks.json文件获取198个任务实例及对应的信道约束和语义标签。推荐采用提供的lace_v3.safetensors预训练权重（K=512）作为起点，但生产环境建议将码本大小调整为K=16以获取最优性能。用户可参照论文中的实验设置，通过调整N/K比值观测认知相变现象，或利用原始句法特征提取认知可分离性指标d_cog（交叉验证准确率74.8%）。数据集采用CC BY 4.0许可，引用时请注明原始论文及Zenodo DOI。

背景与挑战

背景概述

LACE（Latent Adaptive Compression Engine）数据集由Théophile Lafargue于2026年创建，隶属于巴黎-萨克雷大学Pépite Paris-Saclay机构，旨在探索物理信道约束下的语义压缩机制。该数据集以198个真实操作任务为核心，涵盖国防、医疗、工业及搜救/农业四大领域，聚焦于LoRa和SMS等窄带通信场景中，矢量量化码本如何在不依赖显式监督的情况下，自发分离检索型和推理型通信。其研究揭示了认知涌现的相变规律，即当码本大小与任务数量之比低于临界阈值时，语义结构自然形成，这一发现为边缘人工智能中的高效通信提供了理论基石，并对认知科学与信息瓶颈理论产生深远影响。

当前挑战

LACE数据集所解决的领域挑战在于，传统压缩方法在极端带宽限制（如LoRa帧仅9–50字节）下无法保留语义可区分性，导致检索与推理任务在编码空间中混叠，降低下游任务性能。构建过程中，研究者面临两大难题：一是码本尺寸需精确调谐至最佳点（K=16），过大会掩盖认知相变现象（如v1中K=512未能发现分离效应）；二是奖励模型的选择（随机奖励优于MiniLM）与认知结构的自发涌现无关，需通过大规模超参数扫描（128个K×N×D组合）验证临界比N/K≈25–30的普适性，同时确保结果经Bonferroni校正后仍具统计显著性。

常用场景

经典使用场景

LACE（Latent Adaptive Compression Engine）数据集的核心应用场景是研究在极端物理信道约束（如LoRa、SMS）下的语义压缩与认知涌现现象。该数据集包含198个来自国防、医疗、工业及搜救/农业领域的操作任务，每个任务均被编码为检索型或推理型通信，并配有严格的字节预算（4–9比特）。研究者在向量量化（VQ）框架下训练稀疏编码器–解码器架构，使得模型能够在极低带宽下高效压缩自然语言语义，同时保持任务执行的关键信息。经典用法在于通过调整码本大小K（16–512）与嵌入维度D，观察在不同压缩比率下，系统能否自发区分检索与推理两种通信模式，从而揭示语义处理的临界行为。

解决学术问题

该数据集针对的核心学术问题是：在物理带宽硬约束下，离散语义压缩系统是否能够涌现出认知分离现象——即无需显式监督，码本中的Voronoi区域自动划分出检索型和推理型通信单元。传统信息论与自然语言处理多关注无损或有损压缩的率失真边界，但极少探索压缩过程中语义结构与认知功能的自组织规律。LACE通过系统性扫描压缩比率（N/K比值），证实当该比值低于25–30的经验阈值时，系统发生相变，认知结构自发形成。这一发现填补了信息瓶颈理论与边缘智能之间的理论空白，为理解低资源环境下语言模型的认知涌现机制提供了定量实验证据，推动了人工智能中语义压缩与认知架构交叉领域的理论发展。

衍生相关工作

LACE数据集及其发现催生了多项后续经典工作。首先，研究者基于其相变理论提出了混合状态保持网关专利（FR2511116），旨在实现大语言模型在2G/SMS/LoRa/卫星链路上的推理部署。其次，相关工作如llama.cpp中的同步SSM检查点技术（PR #20075）与Mistral Small 4的MoE架构探索，均受到LACE对离散码本结构与认知功能分离机制的启发。此外，由同一团队提出的“神话角色蒸馏”方法（ox-ox/mythos-character-distillation）延续了语义压缩与认知涌现的研究脉络，尝试在更低码本维度下提取可解释的认知基元。这些工作共同构建了从理论发现到工程实践的知识闭环，推动了边缘认知计算领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集