hearing2translate-humeval

Hugging Face2026-01-09 更新2026-01-10 收录

下载链接：

https://huggingface.co/datasets/zouharvi/hearing2translate-humeval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'Hearing to Translate'，与一项关于将语音模态集成到大型语言模型（LLMs）中有效性的研究论文相关。数据集包含使用Pearmut平台收集的人类评估实验数据，专注于多语言翻译任务。注释包括三个模型的分数和错误范围：aya_canary-v2、seamlessm4t和voxtral-small-24b。数据集特征包括采样率为16000的音频文件（src_audio）、参考转录文本（src_ref）以及各种模型输出（tgt）。还包括每个模型的详细注释、指标和操作。数据集采用Apache-2.0许可证，支持包括意大利语、德语、西班牙语、中文和荷兰语在内的多种语言。

创建时间：

2025-12-29

原始信息汇总

数据集概述

基本信息

数据集名称: Hearing to Translate
托管地址: https://huggingface.co/datasets/zouharvi/hearing2translate-humeval
许可证: Apache-2.0
任务类别: 翻译

语言

意大利语 (it)
德语 (de)
西班牙语 (es)
中文 (zh)
荷兰语 (nl)

数据内容与结构

数据集包含人类评估实验数据，用于评估语音模态集成到大型语言模型中的翻译效果。

主要特征字段

src_audio: 源音频，采样率为16000 Hz。
src_ref: 源音频的参考转录文本。
tgt: 目标翻译文本，包含三个模型的输出：
- aya_canary-v2
- ref (参考翻译)
- seamlessm4t
- voxtral-small-24b
annotations: 人工标注，包含三个模型的评估分数和错误跨度（含类别和严重性）。
metrics: 自动评估指标分数，包含三个模型的多种量化指标。
actions: 评估过程中的用户交互行为记录。
dataset: 数据集来源标识。
langs: 语言对标识。
sample_id: 样本唯一标识。
src_audio_file: 源音频文件名。

数据规模

训练集样本数: 547
训练集大小: 约305.2 MB
下载大小: 约252.1 MB

评估方法

评估使用Pearmut平台进行。
采用MQM/ESA协议进行对比评估，评估者同时查看多个模型的输出。
评估者为双语使用者。

相关资源

研究论文: https://arxiv.org/abs/2512.16378
项目代码: https://github.com/sarapapi/hearing2translate
评估平台论文: https://arxiv.org/abs/2601.02933
评估平台代码: https://github.com/zouharvi/pearmut

搜集汇总

数据集介绍

构建方式

在语音翻译研究领域，hearing2translate-humeval数据集的构建体现了严谨的评估流程。该数据集源自一项关于大语言模型集成语音模态有效性的研究，其核心是通过Pearmut这一轻量级平台，组织双语使用者对多个语音翻译模型的输出进行人工评估。评估过程遵循MQM/ESA协议，采用对比评估范式，将不同模型的翻译结果并排呈现给评估者。数据采集基于源语言音频，评估者在仅听取音频的条件下，对aya_canary-v2、seamlessm4t和voxtral-small-24b三个模型的译文进行打分并标注错误片段，最终形成了包含547个样本的结构化评估记录。

特点

该数据集在语音翻译评估领域展现出鲜明的特色。其结构设计精细，每条记录不仅包含源音频及其参考转录，还系统性地整合了三个前沿语音翻译模型的输出结果、人工标注的详细错误信息以及多项自动评估指标。错误标注体系尤为深入，涵盖了错误类别、严重程度及在文本中的具体位置，为模型错误分析提供了细粒度视角。同时，数据集记录了评估者在平台上的完整交互行为，为理解评估过程本身提供了宝贵数据。这种多模型对比、人工与自动评估相结合、并附带过程日志的复合结构，使其成为研究语音翻译模型性能与评估方法的综合性资源。

使用方法

该数据集为语音翻译模型的研究与评估提供了多维度的应用途径。研究者可直接加载数据集，利用其中的源音频、模型译文及人工评分，对不同模型的翻译质量进行横向对比分析。详细的错误标注信息允许进行深入的错误类型学分析，探究模型在语义、语法或流畅性等方面的具体缺陷。数据集内嵌的多种自动评估指标分数，可与人工评分进行相关性研究，以验证自动指标的可靠性。此外，伴随记录的用户交互行为数据，为优化人工评估界面与流程设计提供了实证依据。使用前需引用相关的原始研究论文与评估平台论文。

背景与挑战

背景概述

在语音翻译研究领域，评估模型性能始终是推动技术进步的核心环节。hearing2translate-humeval数据集于2025年由Sara Papi等研究人员创建，旨在系统评估大型语言模型集成语音模态后的翻译效能。该数据集聚焦于从意大利语、德语、西班牙语、中文及荷兰语等源语言音频到目标文本的翻译任务，核心研究问题在于探究语音输入对翻译质量的影响机制。通过采用Pearmut平台进行人工评估，并遵循MQM/ESA协议，该数据集为语音增强翻译模型的性能提供了严谨的基准，对推动多模态机器翻译领域的发展具有显著影响力。

当前挑战

该数据集致力于解决语音翻译领域的关键挑战，即如何准确评估模型在理解语音信号并生成高质量翻译文本方面的综合能力。构建过程中面临多重困难：一是确保多语言音频数据的代表性及其转录参考的精确性，为评估奠定可靠基础；二是在人工标注环节，需协调双语评估者使用复杂协议对多个模型输出进行对比性错误标注，保持标注标准的一致性与客观性极具挑战；三是设计高效的数据结构以整合音频、多模型翻译结果、详细错误跨度及多种自动度量分数，这要求精密的工程规划与质量控制。

常用场景

经典使用场景

在语音翻译研究领域，hearing2translate-humeval数据集为评估端到端语音翻译模型的性能提供了关键基准。该数据集通过整合多语言音频源及其对应的人工标注翻译，使研究者能够系统性地对比不同模型在语音理解与跨语言转换任务中的表现。其核心应用场景在于支持基于MQM/ESA协议的对比性人工评估，允许研究者将aya_canary-v2、seamlessm4t和voxtral-small-24b等先进模型的输出并置分析，从而深入探究语音模态集成到大语言模型中的实际效果。

衍生相关工作

基于hearing2translate-humeval数据集，已衍生出一系列聚焦于语音翻译评估与模型优化的经典研究工作。这些工作不仅深化了对语音模态与大语言模型融合机制的理解，还推动了如Pearmut等轻量级人工评估平台在 multilingual 任务中的标准化应用。相关研究进一步探索了错误标注数据在模型微调、多模态对齐损失函数设计及零样本跨语言迁移等方面的价值，为构建更稳健、可解释的端到端语音翻译系统奠定了方法论基础。

数据集最近研究