brick-complexity-extractor

Hugging Face2026-04-12 更新2026-04-13 收录

下载链接：

https://huggingface.co/datasets/regolo/brick-complexity-extractor

下载链接

链接失效反馈

官方服务：

资源简介：

Brick Complexity Extractor Dataset 是一个包含76,831条用户查询的数据集，每条查询都被标注为“简单”、“中等”或“困难”三个复杂度等级，用于指示回答每个查询所需的认知努力和推理深度。该数据集旨在训练Brick Complexity Extractor模型，用于智能LLM路由系统中的查询复杂度分类。数据集采用英文，格式为JSONL，包含query、label和confidence三个字段。标签由Qwen3.5-122B作为LLM法官生成，并通过一致性采样和人工校准确保质量。数据集分为训练集（85%）、验证集（10%）和测试集（5%），类别分布反映了真实世界查询的自然分布。适用于训练查询复杂度分类器、推理成本优化研究等任务，但需注意其非商业许可和英语局限性。

创建时间：

2026-04-09

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高效分配计算资源是优化大型语言模型部署的关键挑战。Brick Complexity Extractor 数据集的构建采用了基于大语言模型作为评判者的创新方法。具体而言，研究团队利用 Qwen3.5-122B 模型对从开源指令集、公开聊天机器人提示等渠道收集的查询进行复杂性标注。为确保标签质量，每个查询均经过三次独立分类，仅保留至少两次结果一致的样本，一致性比率达到91.4%。此外，专家对随机子集进行了人工校准，Cohen's κ系数为0.82，验证了标注结果与人类判断的高度吻合。最终，经过重复数据删除和个人信息过滤，形成了包含76,831个英文查询的标注数据集。

特点

该数据集的核心特征在于其精细的复杂性分层体系与真实世界查询分布的紧密贴合。数据集将用户查询依据所需认知努力与推理深度划分为简单、中等、困难三个等级，每个等级均有明确的定义，例如简单类对应1-2步推理的事实检索，而困难类则涉及6步以上的深度专业综合。数据分布呈现出自然的不均衡性，中等复杂度查询占比最高，这反映了实际生产环境中查询的典型模式。每个样本不仅包含查询文本与分类标签，还附带了由一致性采样产生的置信度分数，为模型训练提供了额外的可靠性度量维度。

使用方法

该数据集主要服务于训练用于大型语言模型路由的查询复杂性分类器。使用者可通过 Hugging Face Datasets 库便捷加载，数据集已预分为训练集、验证集和测试集，并采用分层抽样以保持各类别比例。研究人员可利用该数据训练或评估分类模型，实现实时查询分流，从而将简单查询导向轻量级模型，将复杂查询分配给性能更强的模型，以优化推理成本与响应质量。数据集中提供的置信度字段可用于筛选高置信度样本，以提升训练数据的纯净度。需要注意的是，该数据集标注基于英文查询，且其复杂性定义专为模型推理预算优化而设计，不适用于教育领域的难度评估或内容安全审核。

背景与挑战

背景概述

在大型语言模型（LLM）部署日益普及的背景下，高效分配计算资源成为优化推理成本与响应质量的关键。由Regolo.ai团队于2026年4月发布的Brick Complexity Extractor数据集，旨在通过标注用户查询的认知复杂度，为智能路由系统提供训练基础。该数据集包含76,831条英文查询，每条均被分类为“简单”、“中等”或“困难”三个等级，其核心研究问题聚焦于实时评估查询所需推理深度，从而引导系统将查询动态分配至不同能力的模型，实现计算资源的按需调配。这一工作对提升LLM服务的经济性与效能具有显著影响力，为语义路由与推理预算优化领域提供了重要的数据支撑。

当前挑战

该数据集致力于解决LLM路由中查询复杂度分类的挑战，其核心在于准确界定不同认知层次查询的边界，特别是“中等”与“困难”类别间存在主观模糊性，易导致分类不一致。在构建过程中，团队面临大规模标注的可行性难题：若采用人工标注，需耗费数百工时且难以保证标注一致性。因此，数据集采用Qwen3.5-122B作为LLM法官进行自动化标注，虽通过多次采样与专家校准提升了可靠性，但模型本身可能携带领域偏差，例如对数学类查询的难度评估可能系统性偏高。此外，数据源以英文为主，存在语言局限性，且查询分布随时间演变，可能无法充分覆盖新兴领域的复杂性特征。

常用场景

经典使用场景

在大型语言模型部署的背景下，高效分配计算资源是提升系统性能与经济效益的核心挑战。Brick Complexity Extractor数据集通过标注用户查询的认知复杂度，为智能路由机制提供了关键训练素材。其经典应用场景在于训练轻量级分类器，以实时判别查询难度，进而驱动语义路由系统如Brick，将简单查询导向计算成本较低的模型，而将复杂推理任务分配给性能更强的前沿模型，实现计算预算的按需分配与优化。

解决学术问题

该数据集致力于解决自然语言处理与系统优化交叉领域的若干学术问题。它为核心研究提供了基准，助力探索查询难度自动评估、推理深度量化以及基于复杂度的资源调度算法。通过大规模标注数据，研究者能够深入分析语言模型处理不同认知负荷任务时的性能边界，并推动轻量级分类模型在实时决策场景下的发展，为构建高效、可扩展的智能推理系统奠定了实证基础。

衍生相关工作

围绕该数据集，已衍生出多项具有影响力的研究与工程实践。其直接产物Brick语义路由系统开源项目，展示了复杂度感知路由的完整实现。此外，基于该数据集的基准测试推动了查询分类模型架构的改进，例如高效适配器的设计与微调策略。相关研究进一步探索了LLM作为评判者的标注一致性、复杂度标签的校准方法，以及在不同领域查询上的泛化能力，为后续动态资源管理研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集