Smart Home, Git Assistant, PII Redaction Healthcare, Text2SQL, Docstring Generation, HotpotQA, Banking77, E-commerce, TREC

github2026-03-02 更新2026-03-10 收录

下载链接：

https://github.com/distil-labs/inference-efficiency-benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

9个数据集，涵盖分类、问答和函数调用： - Smart Home：函数调用，测试大小50，评估指标为工具调用等价性 - Git Assistant：函数调用，测试大小116，评估指标为工具调用等价性 - PII Redaction Healthcare：问答，测试大小133，评估指标为LLM-as-a-judge - Text2SQL：问答，测试大小50，评估指标为LLM-as-a-judge - Docstring Generation：问答，测试大小253，评估指标为LLM-as-a-judge - HotpotQA：开放书问答，测试大小200，评估指标为LLM-as-a-judge - Banking77：分类，测试大小200，评估指标为准确率 - E-commerce：分类，测试大小200，评估指标为准确率 - TREC：分类，测试大小200，评估指标为准确率

A collection of 9 datasets covering classification, question answering, and function calling tasks: - Smart Home: Function calling task, with a test set size of 50, evaluated using tool call equivalence - Git Assistant: Function calling task, with a test set size of 116, evaluated using tool call equivalence - PII Redaction Healthcare: Question answering task, with a test set size of 133, evaluated using LLM-as-a-judge - Text2SQL: Question answering task, with a test set size of 50, evaluated using LLM-as-a-judge - Docstring Generation: Question answering task, with a test set size of 253, evaluated using LLM-as-a-judge - HotpotQA: Open-book question answering task, with a test set size of 200, evaluated using LLM-as-a-judge - Banking77: Classification task, with a test set size of 200, evaluated using accuracy - E-commerce: Classification task, with a test set size of 200, evaluated using accuracy - TREC: Classification task, with a test set size of 200, evaluated using accuracy

创建时间：

2026-02-26

原始信息汇总

数据集概述

数据集基本信息

数据集名称：Inference Efficiency Benchmarks
仓库地址：https://github.com/distil-labs/inference-efficiency-benchmarks
核心目的：提供用于复现研究“Beating frontier labs by an order of magnitude on efficiency”的数据集、评估脚本和预计算结果。

数据集内容

包含9个任务特定的数据集，涵盖分类、问答和函数调用三大类别。

1. 函数调用数据集

Smart Home
- 测试集大小：50
- 评估指标：工具调用等价性
- 数据路径：function-calling/smart-home/
Git Assistant
- 测试集大小：116
- 评估指标：工具调用等价性
- 数据路径：function-calling/git_assistant/

2. 问答数据集

PII Redaction Healthcare
- 测试集大小：133
- 评估指标：LLM-as-a-judge
- 数据路径：question-answering/pii-redaction-healthcare/
Text2SQL
- 测试集大小：50
- 评估指标：LLM-as-a-judge
- 数据路径：question-answering/text2sql/
Docstring Generation
- 测试集大小：253
- 评估指标：LLM-as-a-judge
- 数据路径：question-answering/docstring-generation/

3. 开放书问答数据集

HotpotQA
- 测试集大小：200
- 评估指标：LLM-as-a-judge
- 数据路径：open-book-qa/hotpot-qa/

4. 分类数据集

Banking77
- 测试集大小：200
- 评估指标：准确率
- 数据路径：classification/banking77/
E-commerce
- 测试集大小：200
- 评估指标：准确率
- 数据路径：classification/ecommerce/
TREC
- 测试集大小：200
- 评估指标：准确率
- 数据路径：classification/TREC/

数据集文件结构

每个数据集目录包含以下文件：

data/test.jsonl：测试样本
data/train.jsonl：种子训练样本（通常约50个）
data/job_description.json：任务定义和类别描述
data/config.yaml：Distil CLI配置

蒸馏模型

所有模型均使用Distil Labs通过Distil CLI蒸馏，并托管于HuggingFace。

数据集	基础模型	HuggingFace模型链接
Smart Home	Qwen3-0.6B	https://huggingface.co/distil-labs/smart-home-qwen3-06b
Git Assistant	Qwen3-4B	https://huggingface.co/distil-labs/git-assistant-qwen3-4b
PII Redaction Healthcare	Qwen3-4B	https://huggingface.co/distil-labs/pii-redaction-healthcare-qwen3-4b
Text2SQL	Qwen3-4B	https://huggingface.co/distil-labs/text2sql-qwen3-4b
Docstring Generation	Qwen3-4B	https://huggingface.co/distil-labs/docstring-qwen3-8b
HotpotQA	Qwen3-4B	https://huggingface.co/distil-labs/hotpotqa-qwen3-4b
Banking77	Qwen3-4B	https://huggingface.co/distil-labs/banking77-qwen3-06b
E-commerce	Qwen3-4B	https://huggingface.co/distil-labs/ecommerce-qwen3-4b
TREC	Qwen3-4B	https://huggingface.co/distil-labs/trec-qwen3-4b

评估与结果

预计算结果：位于results/3x-runs/目录，包含博客文章中所有前沿模型的评估结果。
评估脚本：针对不同任务类型提供独立的Python脚本。
结果输出：评估结果保存至results/目录。
绘图脚本：可通过uv run python plots/generate_plots.py生成图表，输出至plots/*.png。

方法论要点

所有模型在同一测试集和相同评估标准下进行评估。
评估类型：
- 分类：精确匹配准确率
- 函数调用：工具调用等价性
- 生成任务：使用Claude Sonnet 4.6的LLM-as-a-judge
前沿模型运行3次，报告均值和标准差。
蒸馏模型使用温度0。
价格快照来自2026年2月。

搜集汇总

数据集介绍

构建方式

在人工智能模型效率评估的背景下，该数据集的构建遵循了严谨的基准测试方法论。其核心在于为九个不同的自然语言处理任务创建了标准化的测试集，每个任务的数据集均包含结构化的测试样本、少量种子训练示例、清晰的任务定义描述以及模型蒸馏配置。构建过程强调数据的一致性，确保所有评估均在相同的测试集和评判标准下进行，涵盖了分类、问答及函数调用等多种任务类型，为模型性能的公平比较奠定了坚实基础。

特点

该数据集集合的显著特征在于其广泛的任务覆盖范围与精细的评估设计。它囊括了智能家居指令理解、代码助手、医疗信息脱敏、文本转SQL、文档字符串生成、多跳问答以及多个领域的文本分类等多样化场景，全面反映了现实世界应用的复杂性。每个子数据集均配备了明确的评估指标，如精确匹配准确率、工具调用等价性以及基于大模型的自动化评判，并提供了预计算的基准结果与方差测量，为深入研究模型在效率与质量间的权衡提供了多维度的分析视角。

使用方法

为复现与拓展相关研究，该数据集提供了完整的使用流程。用户需克隆代码仓库并配置环境依赖，随后可通过提供的脚本，指定不同的模型服务提供商与具体模型，对各个数据集运行评估。评估脚本支持对前沿大模型进行多次运行以计算统计方差，同时数据集目录也包含了利用蒸馏工具链训练专用高效模型所需的全部配置与数据。最终，评估结果将自动保存，并可通过配套脚本生成直观的性能对比图表，便于进行系统的效率基准分析。

背景与挑战

背景概述

在人工智能领域，高效推理与模型轻量化已成为推动技术落地的关键研究方向。Distil Labs机构于近期构建了涵盖智能家居指令理解、代码助手、医疗隐私信息脱敏、自然语言转SQL查询、文档字符串生成、多跳问答、银行客服分类、电商意图识别及文本分类等九大任务的数据集集合，旨在系统评估蒸馏模型在保持性能的同时显著降低计算成本与延迟的潜力。该数据集集合作为开源基准，为学术界与工业界提供了衡量模型效率的标准化工具，其多任务覆盖特性有助于全面分析小型专用模型在替代大型前沿模型时的可行性，对促进边缘计算与实时应用场景的发展具有重要参考价值。

当前挑战

该数据集集合所应对的核心挑战在于如何平衡模型性能与推理效率，即在分类、问答及函数调用等多样化任务中，确保蒸馏模型在参数量大幅缩减后仍能匹配或超越中等规模前沿模型的准确性。构建过程中的挑战涉及多任务数据的协调与标准化，需确保不同领域如医疗、金融、代码生成的数据在格式、评估指标上保持一致，同时克服数据标注的高成本与领域专业知识壁垒，例如医疗隐私脱敏任务要求对敏感信息的精确识别，而函数调用任务需模拟真实场景下的复杂指令解析。此外，评估体系需整合精确匹配、工具调用等价性及基于大模型的评判方法，以全面反映模型在实际部署中的鲁棒性。

常用场景

经典使用场景

在自然语言处理与人工智能领域，该数据集集合作为推理效率基准测试的核心资源，其经典使用场景聚焦于评估和比较前沿大语言模型与小型蒸馏模型在多种任务上的性能表现。研究者通过标准化测试集，系统性地衡量模型在分类、问答及函数调用等场景下的准确率、延迟与成本效率，为模型优化与部署提供实证依据。

解决学术问题

该数据集集合有效应对了当前大模型研究中效率与性能难以兼衡的学术挑战。通过涵盖智能家居指令解析、代码文档生成、隐私信息脱敏等多样化任务，它助力学者深入探究模型蒸馏、任务特定适应以及资源受限环境下的模型轻量化策略，推动了高效人工智能方法学的理论发展与实证验证。

衍生相关工作

围绕该基准数据集，已衍生出一系列经典研究工作，特别是在模型蒸馏与高效推理架构领域。例如，基于Qwen3系列基础模型构建的特定任务蒸馏模型，在HuggingFace平台开源后，被广泛引用于轻量级模型部署、边缘计算优化以及多任务学习框架的对比实验中，促进了学术界与工业界在高效AI技术路线上的持续探索与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集