big_bench_audio
收藏Artificial Analysis Big Bench Audio
数据集描述
数据集概述
Big Bench Audio 是 Big Bench Hard 问题的一个音频版本子集。该数据集用于评估支持音频输入的模型的推理能力。数据集包含 1000 个音频录音,涵盖以下 Big Bench Hard 类别:
- Formal Fallacies Syllogisms Negation (Formal Fallacies) - 250 个问题
- Navigate - 250 个问题
- Object Counting - 250 个问题
- Web of Lies - 250 个问题
支持的任务和排行榜
- Audio-to-Audio:该数据集可用于评估指令调优的音频到音频模型,也适用于测试音频到文本的管道。排行榜可在 https://artificialanalysis.ai/speech-to-speech 找到。
语言
所有音频录音均为英语,音频是使用来自 Artifical Analysis Speech Arena 的 23 种声音合成生成的。
数据集结构
数据实例
每个实例包含四个字段:category、official_answer、file_name、id。
json { "category": "formal_fallacies", "official_answer": "invalid", "file_name": "data/question_0.mp3", "id": 0 }
数据字段
category:关联的 Big Bench Hard 类别official_answer:关联的 Big Bench Hard 答案file_name:包含音频问题的 mp3 文件路径id:每个问题的整数标识符
数据集创建
数据集来源
文本问题直接来自 Big Bench Hard,并在每个基本问题后附加了“. Answer the question”字符串,以生成音频版本的问题。音频生成使用了 OpenAI、Microsoft Azure 和 Amazon 提供的模型,这些模型在 Artifical Analysis Speech Arena 中经过验证,具有高人类偏好。
音频验证
通过计算生成的音频的转录版本与源文本之间的 Levenshtein 距离,并手动审查低于阈值 0.85 的音频文件,确保音频的准确性。
使用数据的注意事项
偏见讨论
所有音频均为英语,主要关注美国和英国口音。过度拟合此基准可能导致忽视其他低资源语言和口音。数据集还继承了原始 Big Bench Hard 数据集中所选类别的任何偏见。
其他信息
数据集策展人
- Micah Hill-Smith
- George Cameron
- Will Bosler
联系方式
引用信息
如果您的研究使用了此数据集,请引用 Artificial Analysis、原始 Big Bench 论文和 Big Bench Hard 论文。




