five

ox-ox/lace-semantic-compression

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/ox-ox/lace-semantic-compression
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - en - fr license: cc-by-4.0 tags: - information-bottleneck - vector-quantization - edge-ai - compression - lora - sms - operational-ai - defense - medical - industrial datasets: - ox-ox/lace-semantic-compression metrics: - domain-coherence pipeline_tag: feature-extraction --- # LACE — Latent Adaptive Compression Engine **Semantic Compression Under Physical Channel Constraints: Domain Emergence Without Cognitive Separation** Théophile Lafargue · April 2026 · Patent FR2511116 --- ## What this is An experiment measuring what emerges when you force 198 operational tasks through a discrete semantic bottleneck under LoRa/SMS constraints. Result: 47 semantic concepts emerge spontaneously. Domain clustering: real (mean coherence 68.4%, 16 concepts at 100%). Retrieval/inference separation: not significant (permutation test p̂=0.61). --- ## Repo contents - `tasks.json` — 198 operational tasks (defense, medical, industrial, agriculture, SAR). Retrieval + inference, LoRa + SMS. - `lace_v3.safetensors` — trained model weights - `summary.txt` — full experimental results - `paper.md` — white paper (arXiv submission pending endorsement) --- ## Architecture Weighted BoW encoder → Spherical VQ codebook (K=512) → MLP decoder Channel budget: 9 bits (log₂ 512), equivalent to a 50-byte LoRa frame. Trained on Apple M3 Max 128GB, MLX framework. ~15 min training time. --- ## Key result The bottleneck learns domain taxonomy, not cognitive type. CONCEPT #385 — Medical, 83.3% coherence, 30 tasks. CONCEPT #243 — Industrial, 78.6% coherence, 14 tasks. CONCEPT #192 — Defense, 100% coherence, 3 tasks. A pump failure and a seal leak cluster together. A pump failure and a medical triage do not. But a pump failure (retrieval) and a pump failure prediction (inference) are not yet separated. First layer of emergence = domain. Second layer = open question. --- ## Related Patent FR2511116 — Hybrid State-Preserving Gateway for LLM over 2G/SMS llama.cpp PR #20075 — Synchronized SSM Checkpointing arXiv preprint cs.LG — endorsement pending ox-ox/mythos-character-distillation
提供机构:
ox-ox
搜集汇总
数据集介绍
main_image_url
构建方式
LACE(Latent Adaptive Compression Engine)数据集旨在探索物理信道约束下的语义压缩认知相变现象。该数据集精心构建了198个涵盖国防、医疗、工业及SAR/农业四大领域的操作性任务,每个任务均包含任务标识、信道类型(LoRa/SMS)、预算字节数、上下文、查询、最小化输出与智能化输出、任务类型(检索/推理)及智能信号。模型架构采用加权词袋编码器、球形向量量化码本(K=16–512)及MLP解码器,信道预算为4–9比特,等效于9–50字节的LoRa/SMS帧。在Apple M3 Max 128GB设备上基于MLX框架训练,每次运行约15分钟。
特点
该数据集的核心特点在于揭示了认知涌现的相变行为:当N/K比值低于约25–30的临界阈值时,向量量化码本书本能自发地将检索型与推理型通信分离至不同的Voronoi区域,无需显式监督。经验认知涌现定律N/K < C·d_cog(C_emp=0.391≈1/e)已在128个数据点上得到验证。K=16被确认为最优部署参数(p=0.0034),且认知结构源于操作性语言本身而非奖励模型。共有46个活跃码本,其中15个检索主导、15个推理主导、16个混合类型。
使用方法
使用本数据集时,用户可直接加载tasks.json文件获取198个任务实例及对应的信道约束和语义标签。推荐采用提供的lace_v3.safetensors预训练权重(K=512)作为起点,但生产环境建议将码本大小调整为K=16以获取最优性能。用户可参照论文中的实验设置,通过调整N/K比值观测认知相变现象,或利用原始句法特征提取认知可分离性指标d_cog(交叉验证准确率74.8%)。数据集采用CC BY 4.0许可,引用时请注明原始论文及Zenodo DOI。
背景与挑战
背景概述
LACE(Latent Adaptive Compression Engine)数据集由Théophile Lafargue于2026年创建,隶属于巴黎-萨克雷大学Pépite Paris-Saclay机构,旨在探索物理信道约束下的语义压缩机制。该数据集以198个真实操作任务为核心,涵盖国防、医疗、工业及搜救/农业四大领域,聚焦于LoRa和SMS等窄带通信场景中,矢量量化码本如何在不依赖显式监督的情况下,自发分离检索型和推理型通信。其研究揭示了认知涌现的相变规律,即当码本大小与任务数量之比低于临界阈值时,语义结构自然形成,这一发现为边缘人工智能中的高效通信提供了理论基石,并对认知科学与信息瓶颈理论产生深远影响。
当前挑战
LACE数据集所解决的领域挑战在于,传统压缩方法在极端带宽限制(如LoRa帧仅9–50字节)下无法保留语义可区分性,导致检索与推理任务在编码空间中混叠,降低下游任务性能。构建过程中,研究者面临两大难题:一是码本尺寸需精确调谐至最佳点(K=16),过大会掩盖认知相变现象(如v1中K=512未能发现分离效应);二是奖励模型的选择(随机奖励优于MiniLM)与认知结构的自发涌现无关,需通过大规模超参数扫描(128个K×N×D组合)验证临界比N/K≈25–30的普适性,同时确保结果经Bonferroni校正后仍具统计显著性。
常用场景
经典使用场景
LACE(Latent Adaptive Compression Engine)数据集的核心应用场景是研究在极端物理信道约束(如LoRa、SMS)下的语义压缩与认知涌现现象。该数据集包含198个来自国防、医疗、工业及搜救/农业领域的操作任务,每个任务均被编码为检索型或推理型通信,并配有严格的字节预算(4–9比特)。研究者在向量量化(VQ)框架下训练稀疏编码器–解码器架构,使得模型能够在极低带宽下高效压缩自然语言语义,同时保持任务执行的关键信息。经典用法在于通过调整码本大小K(16–512)与嵌入维度D,观察在不同压缩比率下,系统能否自发区分检索与推理两种通信模式,从而揭示语义处理的临界行为。
解决学术问题
该数据集针对的核心学术问题是:在物理带宽硬约束下,离散语义压缩系统是否能够涌现出认知分离现象——即无需显式监督,码本中的Voronoi区域自动划分出检索型和推理型通信单元。传统信息论与自然语言处理多关注无损或有损压缩的率失真边界,但极少探索压缩过程中语义结构与认知功能的自组织规律。LACE通过系统性扫描压缩比率(N/K比值),证实当该比值低于25–30的经验阈值时,系统发生相变,认知结构自发形成。这一发现填补了信息瓶颈理论与边缘智能之间的理论空白,为理解低资源环境下语言模型的认知涌现机制提供了定量实验证据,推动了人工智能中语义压缩与认知架构交叉领域的理论发展。
衍生相关工作
LACE数据集及其发现催生了多项后续经典工作。首先,研究者基于其相变理论提出了混合状态保持网关专利(FR2511116),旨在实现大语言模型在2G/SMS/LoRa/卫星链路上的推理部署。其次,相关工作如llama.cpp中的同步SSM检查点技术(PR #20075)与Mistral Small 4的MoE架构探索,均受到LACE对离散码本结构与认知功能分离机制的启发。此外,由同一团队提出的“神话角色蒸馏”方法(ox-ox/mythos-character-distillation)延续了语义压缩与认知涌现的研究脉络,尝试在更低码本维度下提取可解释的认知基元。这些工作共同构建了从理论发现到工程实践的知识闭环,推动了边缘认知计算领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作