pavo-bench

Hugging Face2026-04-06 更新2026-04-07 收录

下载链接：

https://huggingface.co/datasets/vnmoorthy/pavo-bench

下载链接

链接失效反馈

官方服务：

资源简介：

PAVO-Bench 是一个用于评估 ASR-LLM-TTS 语音管道路由决策的综合基准测试套件。该数据集包含 50,000 轮次的基准数据，旨在衡量不同管道配置在通过级联自动语音识别 (ASR)、大语言模型 (LLM) 和文本转语音 (TTS) 组件路由语音查询时，如何平衡延迟、质量、成本和能耗。数据集分为三个层次（单元级验证、集成级评估、规模评估）以及组件级消融研究，每个层次包含特定的 JSON 文件，记录了详细的指标和结果。数据集适用于自动语音识别、文本生成和文本转语音等任务，并提供了延迟、质量、成本、能耗和耦合违规等基准指标。数据集采用 CC-BY 4.0 许可发布。

创建时间：

2026-04-05

原始信息汇总

PAVO-Bench 数据集概述

基本信息

数据集名称: PAVO-Bench
作者: NarasingaMoorthy VeiluKanthaPerumal (University of Pennsylvania)
发布日期: 2026年
许可证: Creative Commons Attribution 4.0 International (CC-BY 4.0)
语言: 英语 (en)
数据规模: 10K<n<100K
任务类别: 自动语音识别、文本生成、文本转语音
标签: pavo, benchmark, asr, llm, tts, pipeline-routing, voice-assistant, latency, quality, cost, energy

数据集描述

PAVO-Bench 是一个用于评估 ASR-LLM-TTS 语音管道路由 决策的综合基准测试套件。它提供了 50,000 轮次的基准数据，旨在衡量在通过级联的自动语音识别、大型语言模型和文本转语音组件路由口语查询时，不同管道配置在平衡延迟、质量、成本和能耗方面的表现。

该基准测试按规模和复杂性递增分为三个层级，并包含组件级消融研究。所有结果均在 GPU 硬件上生成。

数据集文件结构

数据集包含多个 JSON 结果文件，按层级和评估类型组织。

第 1 层 -- 单元级验证

tier1_statistical_results.json: 跨 5 次试验（每次 1,000 轮次，种子为 42, 123, 456, 789, 1024）的统计可重复性结果。报告 PAVO 延迟、质量、成本和能量指标的均值、标准差和 95% 置信区间。
tier1_coupling_results.json: 耦合约束验证，使用 llama3.1:8b 测量 LLM 质量随 ASR 词错误率（WER 0--20%）下降的情况。
tier1_llm_latency_results.json: llama3.1:8b 在短（50 个标记）、中（200 个标记）和长（500 个标记）生成上下文下的 LLM 延迟分析。报告总延迟、首标记时间和每秒标记数。

第 2 层 -- 集成级评估

tier2_e2e_results.json: 针对 cloud_premium（whisper-large-v3 + llama3.1:8b）和 edge_fast（whisper-tiny + gemma2:2b）配置在 200 个 LibriSpeech 样本上的端到端管道测量。包括每阶段延迟细分、样本 ASR 输出和样本 LLM 响应。
tier2_cross_dataset_results.json: 在 LibriSpeech 和 FLEURS 数据集上对 whisper-large-v3 和 whisper-tiny 模型进行的跨数据集 ASR 评估（各 200 个样本）。报告 WER 和延迟统计。
tier2_noise_robustness_results.json: 在信噪比 5--30 dB 的白噪声以及干净基线下的 ASR 鲁棒性评估。报告不同噪声条件下的 WER 下降情况。

第 3 层 -- 规模评估

tier3_50k_summary.json: 完整的 50,000 轮次 PAVO-Bench 数据集的汇总统计：40K 训练 / 10K 测试划分、复杂度分布（1--5 级）、生成时间和错误率。
tier3_scaling_results.json: 跨多个模型（gemma2:2b, llama3.1:8b 等）针对简单、中等和复杂查询类型的 LLM 扩展基准。报告延迟、吞吐量和实时适用性。

组件分析

component_ablation_results.json: 消融研究，比较 PAVO-Full、PAVO-NoCoupling 和其他消融配置。报告延迟、质量、成本、能量、耦合违规和不可行百分比。

基准测试指标

延迟（毫秒）：端到端及每组件响应时间
质量（0--1）：综合 ASR 准确性和 LLM 响应质量的分数
成本（美元）：每轮次推理成本
能量（毫焦）：每轮次能耗
耦合违规：ASR 错误传播并导致 LLM 质量下降的情况

引用

如果研究中使用 PAVO-Bench，请引用： bibtex @misc{pavo-bench-2026, author = {VeiluKanthaPerumal, NarasingaMoorthy}, title = {PAVO-Bench: A 50K-Turn Benchmark for ASR-LLM-TTS Pipeline Routing}, year = {2026}, institution = {University of Pennsylvania}, url = {https://huggingface.co/datasets/vnmoorthy/pavo-bench} }

搜集汇总

数据集介绍

构建方式

在语音助手与多模态人工智能系统蓬勃发展的背景下，PAVO-Bench数据集通过严谨的实验设计构建而成。其核心在于系统性地评估ASR-LLM-TTS语音处理流水线的路由决策，构建过程涵盖了三个递进层级。第一层级进行单元验证，包括统计可复现性测试、耦合约束验证以及大语言模型延迟剖析；第二层级聚焦集成评估，涉及端到端流水线测量、跨数据集自动语音识别评估及噪声鲁棒性测试；第三层级则进行大规模评估，基于五万轮对话的完整数据集生成摘要统计并分析模型扩展性能。所有数据均在GPU硬件上生成，确保了实验环境的一致性。

特点

该数据集作为语音处理流水线路由领域的综合性基准，其显著特点在于多维度、大规模与结构化。数据集包含五万轮对话的基准数据，旨在全面衡量不同流水线配置在延迟、质量、成本及能耗四个关键指标上的权衡表现。其结构被精心划分为三个复杂度递增的层级以及组件消融研究，使得评估既能覆盖单元组件的性能，也能深入端到端系统的集成表现。数据集提供了丰富的度量标准，包括详细的延迟分解、样本输出以及跨模型与噪声条件下的鲁棒性分析，为研究者提供了深入洞察系统行为的宝贵资源。

使用方法

为便利研究社区的使用，PAVO-Bench数据集以独立的JSON文件形式提供，每个文件对应一个特定的评估层级或研究主题。用户可通过Hugging Face Hub的API灵活下载单个文件或整个数据集快照。加载数据后，研究者可便捷地访问各类基准测试结果，例如端到端流水线性能统计、模型扩展性数据或组件消融分析。这些结构化数据可直接用于分析不同配置在多重约束下的表现，为优化语音助手流水线的路由算法、进行公平的模型比较或探索质量与效率的帕累托前沿提供了坚实的数据基础。

背景与挑战

背景概述

随着语音助手与多模态人工智能系统的普及，自动语音识别、大语言模型与文本转语音技术构成的级联流水线已成为人机交互的核心架构。由宾夕法尼亚大学研究人员于2026年发布的PAVO-Bench数据集，旨在系统评估此类流水线在路由决策中的综合性能。该数据集聚焦于衡量不同组件配置在延迟、质量、成本及能耗等多维指标上的权衡，其五万轮次的大规模基准测试为优化端到端语音交互系统提供了关键数据支撑，推动了高效能、低资源消耗的智能语音系统设计范式的发展。

当前挑战

PAVO-Bench致力于解决语音交互流水线中多目标优化的核心难题，即在动态路由场景下如何协同优化延迟、质量、成本与能耗等相互制约的指标。构建过程中面临诸多挑战：需设计涵盖统计可复现性、组件耦合验证及噪声鲁棒性等多层级的评估框架；同时，在规模扩展时需确保数据分布的复杂性，并精确量化ASR错误向LLM输出的传播效应，以真实反映实际部署中组件间误差累积的影响。

常用场景

经典使用场景

在语音助手与多模态智能系统领域，PAVO-Bench数据集为评估ASR-LLM-TTS级联流水线的路由决策提供了标准化基准。其经典使用场景集中于系统性地衡量不同组件配置在延迟、质量、成本和能耗之间的权衡，例如通过Tier 2的端到端评估模块，研究者能够对比云端高精度与边缘轻量级配置在真实语音查询上的性能差异，从而为动态路由策略的优化提供实证依据。

衍生相关工作

基于PAVO-Bench的丰富层级结构，已衍生出多项聚焦于动态路由算法与自适应调度的经典研究。例如，部分工作利用其耦合验证数据开发了错误传播抑制机制；另一些研究则结合规模扩展测试结果，提出了面向异构硬件的模型选择框架。这些工作共同推动了语音处理流水线向更智能、更高效的自治系统演进。

数据集最近研究