five

specimba/chimera-v0.1.0

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/specimba/chimera-v0.1.0
下载链接
链接失效反馈
官方服务:
资源简介:
Chimera v0.1.1是一个专为NEXUS OS设计的压缩感知模型路由器,支持多种压缩和量化方法,适用于从嵌入式设备到服务器/云的不同使用场景。它提供了灵活的模型选择功能,可以根据代理ID、意图、令牌预算、延迟SLA和VRAM大小来选择最适合的模型和压缩方法。

Chimera v0.1.1 is a compression-aware model router designed for NEXUS OS, supporting various compression and quantization methods for different use cases ranging from embedded devices to server/cloud. It offers flexible model selection capabilities, choosing the most suitable model and compression method based on agent ID, intent, token budget, latency SLA, and VRAM size.
提供机构:
specimba
搜集汇总
数据集介绍
main_image_url
构建方式
Chimera-v0.1.0 数据集的构建基于 NEXUS OS 生态中的模型路由与压缩感知需求,整合了 Hermes 桥接模块、SQLite 元数据存储引擎以及多种压缩插件的适配接口。该数据集通过 ChimeraRouter 核心组件,将模型选择逻辑与压缩方法注册表相融合,并参考 GPU 显存容量与延迟约束将推理资源划分为 ECO、FAST、MID 与 PREMIUM 四个池,从而为不同性能场景提供量化路由依据。
特点
该数据集的核心特色在于其压缩感知路由机制,能够根据推理任务的意图、token 预算、延迟 SLA 与显存限制动态选取最优模型与压缩策略。支持包括 Bonsai 1-bit 量化、TWAVE SVD+WHT 矩阵近似在内的多种压缩方法,并预留 BitNet 等未来扩展。数据集规模极小(n<1K),专注于轻量级、低延迟的边缘推理场景配置。
使用方法
使用者可通过 datasets 库的 load_dataset 函数直接加载该数据集,并在 Python 环境中结合 ChimeraRouter 与 CompressionRegistry 类实现模型路由调用。典型工作流包括实例化路由组件、指定 agent ID 与任务意图、设定 token 与显存预算后调用 select 方法获取推荐的模型标识符及对应压缩参数。亦可利用提供的测试脚本与 PowerShell 启动器快速部署至本地推理管线。
背景与挑战
背景概述
Chimera-v0.1.0数据集由SpecImba团队于近期发布,旨在为NEXUS OS提供一种压缩感知模型路由器,以应对大规模语言模型在边缘设备上的高效推理需求。该数据集的核心研究问题聚焦于如何根据任务意图、令牌预算、延迟约束及显存容量等多维指标,动态选择最优的压缩模型与量化策略。作为ML Intern项目生成的数据集,它整合了Bonsai、TWAVE等前沿压缩技术,定义了ECO、FAST、MID、PREMIUM四个计算池,初步构建了面向异构硬件的模型路由框架。该数据集的出现,为边缘推理场景下的模型压缩与资源调度研究提供了标准化的评估基准,推动了1-bit量化及混合精度推理在实际部署中的落地。
当前挑战
Chimera-v0.1.0数据集所解决的领域挑战在于,边缘设备资源受限与大型语言模型高计算需求之间的矛盾,传统单一模型或固定压缩策略难以同时满足低延迟、低显存与高精度的多元需求。在构建过程中,面临的主要挑战包括:如何设计高效的特征表征以捕获任务意图与设备状态的复杂关系,如何构建覆盖多维度约束的路由选择算法并保证实际部署中的鲁棒性,以及如何整合来自不同压缩方法(如Bonsai的1-bit量化与TWAVE的SVD+WHT)的异构模型元数据。此外,数据集规模较小(n<1K)限制了模型的泛化能力,未来需扩展至更大规模的压缩器与硬件配置组合。
常用场景
经典使用场景
Chimera数据集作为NEXUS OS生态中核心的压缩感知模型路由组件,最经典的应用场景在于为异构硬件环境下的LLM推理提供动态、自适应的压缩策略选择。通过维护一个涵盖多种量化方法(如TWAVE、Bonsai等)的注册表,Chimera能够基于实时约束(token预算、延迟SLA、显存容量)为特定代理任务(如代码生成)匹配合适的模型与压缩级别。这种数据驱动与规则引擎相结合的设计模式,使得该数据集在边缘推理场景中尤为突出,能够在不显著牺牲质量的前提下,将大型语言模型高效地部署于资源受限的设备上。
实际应用
在实际部署中,Chimera数据集支撑了从移动终端到云端服务器的全栈推理场景。对于嵌入式设备,ECO池中的TWAVE int2和Bonsai 1.7B模型实现了低至2-4GB显存占用的轻量推理,使得智能音箱、可穿戴设备等能够运行小规模语言模型。在消费笔记本场景,FAST池的Bonsai 4B/8B变体(4-8GB显存)支持实时代码补全和文档生成。面向大型工作站与服务器集群,PREMIUM池保留了FP16权重和混合专家结构,满足高精度、高吞吐量的商业应用需求。这种层级化的资源分配机制,使企业能够根据成本与性能的权衡自动调整服务配置。
衍生相关工作
基于Chimera数据集衍生的相关工作主要集中在模型压缩与推理调度交叉领域。核心组件CompressionRegistry采用了SQLite元数据存储,催生了可插拔的压缩包提供者生态,如BonsaiTurtle和TWAVE插件。Hermes桥接模块实现了与上层调度系统的无缝集成,启发了面向多代理系统的推理感知路由设计。此外,Compression_History内存追踪(第六轨道)为自适应压缩提供了历史反馈机制,推动了在线量化参数优化的研究。这些工作共同构成了一个围绕压缩感知路由的开源工具链,为未来低比特神经网络(如1-bit BitNet)的落地提供了基础设施支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作