VERA

github2025-10-02 更新2025-10-19 收录

下载链接：

https://github.com/linyueqian/VERA

下载链接

链接失效反馈

官方服务：

资源简介：

VERA（语音推理能力评估）是一个基准数据集，用于在实时对话约束下评估语音交互系统的推理能力。该数据集包含2,931个语音原生片段，源自已建立的文本基准，并组织为五个轨道（数学、网络、科学、长上下文、事实）。每个项目都经过调整以适应语音交互，同时保持推理难度。

VERA (Voice Reasoning Ability Assessment) is a benchmark dataset for evaluating the reasoning capabilities of speech interaction systems under real-time conversational constraints. This dataset contains 2,931 native speech segments derived from established text benchmarks, and is organized into five tracks: mathematics, web, science, long-context, and factual. Each entry has been adapted for speech interaction while maintaining the original reasoning difficulty.

创建时间：

2025-09-25

原始信息汇总

VERA数据集概述

数据集基本信息

数据集名称：VERA（Voice Evaluation of Reasoning Ability）
核心目标：评估语音交互系统在实时对话约束下的推理能力
数据规模：包含2,931个语音原生片段
数据来源：基于已建立的文本基准数据集进行改编

数据集结构

评估轨道

数据集组织为五个评估轨道：

Math（数学）
Web（网络）
Science（科学）
Long-Context（长上下文）
Factual（事实性）

数据特征

所有项目均针对语音交互进行适配
保持原始推理难度
问题和答案使用XOR密码加密以防止记忆

数据获取

下载方式

完整数据集可从Google Drive下载： https://drive.google.com/file/d/1k0b4qXfQ16fVqe-hMn_GSsfc0exCLgSq/view?usp=sharing

样本数据

未加密示例位于test_voice_episodes/目录
包含样本JSON结构和音频文件

技术实现

加密机制

采用XOR密码对问答内容进行加密
详细结构和解密方法参见data/README.md

音频生成

使用Boson Higgs Audio 2生成音频数据
受Boson Higgs Audio 2社区许可证约束

许可信息

代码许可

MIT许可证

数据许可

文本数据遵循上游许可证：
- SimpleQA、BrowseComp、MRCR：MIT许可证
- GPQA-Diamond：CC BY 4.0许可证
音频数据：Boson Higgs Audio 2社区许可证

相关资源

完整许可证文本：LICENSES/目录
数据来源归属：ATTRIBUTIONS.md
音频生成许可和限制：NOTICE.txt

搜集汇总

数据集介绍

构建方式

在语音交互系统评估领域，VERA数据集通过精心设计的转换流程构建而成。该数据集从成熟的文本基准中提取核心问题，采用语音原生适配技术重构了2,931个对话片段。每个问题在保持原始推理难度的基础上，通过专业语音生成引擎转化为自然对话场景，并通过异或加密算法保护数据完整性。这种多模态转换机制确保了评估内容在语音模态下的有效性与可靠性。

特点

作为语音推理能力评估的前沿工具，VERA展现出鲜明的技术特征。数据集涵盖数学推理、网络检索、科学知识、长上下文理解和事实核查五大专项赛道，构建了完整的认知能力评估体系。其独特的实时对话约束模拟了真实语音交互场景，而加密存储机制则有效防止模型记忆偏差。每个语音片段均通过专业声学模型生成，保证了语音质量与内容难度的统一标准。

使用方法

面向智能语音系统研究社区，VERA提供了标准化的评估流程。研究者可通过配置环境变量接入各类语音模型，分别执行批量语音评估、文本基准对比和实时交互测试三类实验范式。评估系统自动生成包含多维度指标的分析报告，支持对模型在语音模态下推理能力的细粒度诊断。数据集提供的样例音频与解密工具链，为方法复现和结果验证提供了完整的技术支持。

背景与挑战

背景概述

随着语音交互技术在智能系统中的广泛应用，评估语音模态下推理能力的需求日益凸显。VERA数据集由林月谦等研究人员于2025年创建，旨在构建面向实时对话场景的语音推理评估基准。该数据集从经典文本基准中转化出2,931个语音原生测试单元，覆盖数学、网络检索、科学推理、长上下文处理与事实核查五大核心领域，通过保持原始问题的推理复杂度，为语音交互系统的认知能力诊断提供标准化工具。

当前挑战

在语音推理评估领域，传统文本基准无法捕捉语音交互特有的时序约束与听觉认知负荷，导致模态性能差异难以量化。VERA构建过程中面临双重挑战：其一是跨模态适配需平衡语音时长与逻辑完整性，避免因音频压缩损失推理难度；其二是数据加密与多源许可整合，采用异或密码保护问题内容的同时，需协调来自SimpleQA、GPQA-Diamond等异构数据源的授权协议。

常用场景

经典使用场景

在语音交互系统研究领域，VERA数据集作为首个专为实时对话约束设计的语音推理基准，其经典应用场景聚焦于评估智能语音助手在数学计算、网络搜索、科学问答等复杂任务中的推理能力。通过将2,931个语音原生情境划分为五个专项赛道，研究者能够系统性地测试模型在语音模态下处理多步逻辑推理的效能，尤其关注语音输入特有的时间压力与信息衰减对认知过程的影响。

实际应用

面向产业实践，VERA为智能客服、教育辅助及医疗问诊等语音驱动场景提供了标准化评估工具。在实时语音诊疗系统中，其长上下文追踪能力可验证模型对症状描述的连贯性解析；在车载语音助手场景中，科学推理赛道能检验突发状况下的应急决策质量。这些应用显著提升了语音系统在动态环境中的认知可靠性，加速了消费级语音产品向专业化场景的渗透。

衍生相关工作

基于VERA的基准特性，学术界已衍生出多项创新研究。其中对Freeze-Omni、Moshi等实时模型的适配优化，推动了流式语音推理架构的发展；其加密数据范式被后续研究扩展至隐私保护型语音评估系统。该数据集还催生了跨模态对齐研究的新方向，如通过语音-文本性能差异分析构建模态迁移理论，为多模态大语言模型的语音接口设计提供了关键参照系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集