ArtificialAnalysis/big_bench_audio

Name: ArtificialAnalysis/big_bench_audio
Creator: ArtificialAnalysis
Published: 2024-12-20 09:03:36
License: 暂无描述

Hugging Face2024-12-20 更新2024-12-21 收录

下载链接：

https://hf-mirror.com/datasets/ArtificialAnalysis/big_bench_audio

下载链接

链接失效反馈

官方服务：

资源简介：

Artificial Analysis Big Bench Audio数据集是Big Bench Hard问题子集的音频版本，用于评估支持音频输入的模型的推理能力。数据集包含1000个音频记录，涵盖Big Bench Hard的四个类别：形式谬误、导航、对象计数和谎言网络。所有音频均为英语，使用23种不同的声音配置生成。数据集的结构包括类别、官方答案、文件名和ID四个字段。数据集的创建旨在为原生音频模型在推理任务上的基准测试提供支持，确保所选类别在音频设置中不会导致不公平的惩罚。音频生成过程使用了OpenAI、Microsoft Azure和Amazon的模型，并通过计算Levenshtein距离和人工审查来验证音频的准确性。数据集主要关注美国和英国口音，可能忽略了其他低资源语言和口音。

The Big Bench Audio dataset is an audio version of a subset of Big Bench Hard questions, designed to evaluate the reasoning capabilities of models that support audio input. The dataset includes 1000 audio recordings across four categories: Formal Fallacies, Navigate, Object Counting, and Web of Lies. The audio is synthetically generated in English using 23 voices from top providers. The dataset is structured with fields including category, official_answer, file_name, and id. The creation rationale focuses on benchmarking native audio models on reasoning tasks, avoiding categories that might unfairly penalize audio models. The source data is derived from Big Bench Hard, with modifications to ensure audio generation quality. The dataset also discusses potential biases, such as overfitting to English and US/UK accents.

提供机构：

ArtificialAnalysis

搜集汇总

数据集介绍

构建方式

在语音智能模型快速发展的背景下，构建能够评估模型推理能力的音频数据集显得尤为重要。ArtificialAnalysis/big_bench_audio数据集基于Big Bench Hard中的精选问题子集构建，涵盖了形式谬误、导航、物体计数和谎言网络四个类别，每个类别包含250个问题。文本问题直接取自原始研究，并在每个问题末尾附加了统一提示语，以确保音频生成的完整性。随后，利用来自OpenAI、Microsoft Azure和Amazon等平台的23种经过人工偏好验证的高质量合成语音，将文本问题转换为音频文件。生成过程中，通过计算转录文本与源文本之间的归一化编辑距离，并手动审核低于阈值的音频，确保了音频内容的准确性与一致性。

特点

该数据集专为评估支持音频输入的模型的推理能力而设计，其核心特点在于将复杂的文本推理任务转化为音频形式。数据集包含1000个英语音频样本，均采用合成语音生成，涵盖了多样化的语音配置，以模拟不同的说话者风格。这些音频问题源自Big Bench Hard中人类评分较高且不易因符号或拼写歧义对音频模型造成不公平评估的类别，从而保证了评测的公正性与挑战性。此外，数据集经过严格的音频验证流程，包括自动转录对比与人工审核，确保了问题表达的清晰度与忠实度，为模型在纯音频环境下的逻辑推理、空间导航和数量计算等能力提供了可靠的基准测试平台。

使用方法

该数据集主要用于评测音频到音频或音频到文本模型的推理性能。研究人员可通过加载数据集提供的MP3音频文件及其对应的元数据（包括问题类别、官方答案和唯一标识符），构建相应的评测管道。对于音频到音频模型，可直接输入问题音频，评估模型生成回答音频的准确性；对于音频到文本模型，则需先将问题音频转录为文本，再评估文本答案的正确性。数据集支持在官方提供的在线排行榜上进行模型性能比较，有助于推动语音智能系统在复杂推理任务上的发展。使用时应考虑数据集在语言和口音上的局限性，并注意其继承自原始文本数据集的潜在偏差。

背景与挑战

背景概述

在人工智能领域，随着语音交互技术的快速发展，评估模型在复杂推理任务中的音频处理能力成为一项关键需求。ArtificialAnalysis/big_bench_audio数据集于近年由Artificial Analysis团队创建，核心研究人员包括Micah Hill-Smith、George Cameron和Will Bosler。该数据集旨在将Big Bench Hard中的文本推理问题转化为音频形式，涵盖形式谬误、导航、对象计数和谎言网络四大类别，共计1000条音频记录。其核心研究问题聚焦于探索原生音频到音频模型在逻辑推理任务中的表现，为简化语音代理工作流程提供基准支持，对推动多模态智能系统的演进具有重要影响力。

当前挑战

该数据集致力于解决音频到音频模型在复杂推理任务中的评估挑战，具体涉及模型对音频输入的逻辑理解与推理能力，这要求模型超越传统语音识别，实现深层语义解析。在构建过程中，挑战主要体现在音频生成的准确性与一致性上：为确保音频内容与源文本对齐，团队采用Levenshtein距离进行转录验证，并对低匹配阈值样本进行人工审核；同时，为避免发音不完整等关键故障，对原始问题文本进行了适应性修改。此外，数据集依赖合成语音生成，可能引入英语口音偏差，并继承源数据集的固有局限，这些因素均增加了评估的复杂性。

常用场景

经典使用场景

在语音智能模型评估领域，ArtificialAnalysis/big_bench_audio数据集被广泛用于测试支持音频输入的模型在复杂推理任务上的表现。该数据集将Big Bench Hard中的文本问题转化为音频形式，涵盖形式谬误推理、导航步骤分析、对象计数及谎言网络判断四大类别，为研究者提供了一个标准化的基准平台，用以衡量模型在纯音频环境下处理逻辑与语义挑战的能力。

实际应用

在实际应用中，该数据集为语音助手、智能客服等音频交互系统的开发提供了关键评估工具。通过测试模型在音频到音频或音频到文本管道中的表现，开发者可以识别模型在真实场景中的推理局限，进而优化语音代理的工作流程。例如，在导航指令解析或对象数量统计任务中，数据集帮助确保系统在嘈杂环境中仍能保持高精度，提升用户体验与系统可靠性。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在语音模型基准测试与跨模态推理领域。例如，基于Big Bench Audio的评估框架被用于比较不同语音合成模型（如OpenAI、Azure和AWS Polly）在复杂问题上的表现，同时促进了音频链式思维（Audio Chain-of-Thought）方法的探索。这些工作进一步拓展了语音智能的边界，为后续多语言、多口音数据集的构建提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集