data-kit-sub-iwslt2025-if-long-constraint

Hugging Face2025-05-20 更新2025-05-21 收录

下载链接：

https://huggingface.co/datasets/maikezu/data-kit-sub-iwslt2025-if-long-constraint

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练参加IWSLT 2025指令跟随语音处理赛道模型的训练数据。数据集包含四种任务的人工增强数据：自动语音识别、语音翻译、口语问答和口语摘要。数据集涵盖多种语言，包括英语、德语、意大利语和中文。数据集通过使用 SeamlessM4T 和 LLaMA-3.1-8B-Instruct 模型生成的科学摘要、翻译的转录文本和问答对进行了增强。README 文件详细介绍了数据集的创建过程和用法，并提供了原始数据集的链接和参考文献以供进一步了解。

创建时间：

2025-05-12

搜集汇总

数据集介绍

构建方式

在语音处理研究领域，该数据集的构建采用了多源数据融合与人工增强策略。通过整合EuroParlST、CoVoST2等权威语音语料库作为基础训练数据，并针对科学领域特性进行专项优化。针对自动语音识别任务，利用NUTSHELL科学摘要数据集进行句子分割与语音合成增强；在语音翻译方向则通过神经机器翻译模型构建意大利语测试集；问答与摘要任务通过指令微调技术生成多语言平行语料，并严格控制不可回答问题的比例以保持数据平衡。

特点

该数据集显著特征体现在其多模态与多任务的交叉设计。覆盖英语、德语、意大利语和中文四种语言，支持语音识别、语音翻译、口语问答及口语摘要四大核心任务。特别针对长语音输入场景（5-10分钟）进行优化，所有增强数据均通过SeamlessM4T-Large与LLaMA-3.1-8B-Instruct双模型验证确保质量。数据组织形式采用标准化Parquet格式，内含音频流与文本标注的精确对应关系，并保留原始数据源的元数据链接以实现可追溯性。

使用方法

使用者可通过直接下载获取完整数据包，各任务数据采用统一接口设计。自动语音识别数据以键值对形式存储，音频数据对应‘audio’字段，转写文本对应‘transcript’字段。语音翻译任务提供人工构建的意大利语测试集，其数据顺序与原始参考译文保持严格一致。问答与摘要数据基于NUTSHELL语料构建，通过‘video_path’字段可实现与原始音频的精确映射，所有衍生数据均附带多语言版本以满足跨语言研究需求。

背景与挑战

背景概述

在语音处理技术快速演进的背景下，卡尔斯鲁厄理工学院为IWSLT 2025竞赛的指令跟随语音处理赛道构建了data-kit-sub-iwslt2025-if-long-constraint数据集。该数据集聚焦于长语音输入（5-10分钟）的多任务处理，涵盖自动语音识别、语音翻译、口语问答及口语摘要四大核心任务，旨在推动端到端语音模型对自然语言指令的理解与执行能力。通过整合EuroParlST、CoVoST2等权威语音语料库，并引入NUTSHELL科学摘要数据的人工增强，该研究团队致力于弥合文本大语言模型与语音模型在指令跟随性能上的差距，为多语言科学领域语音处理设立新基准。

当前挑战

该数据集需应对指令跟随语音模型在长语音输入场景下的多重挑战：其一，模型需同时处理跨语言翻译、内容摘要及复杂问答等异构任务，对多任务协同优化提出极高要求；其二，数据构建过程中面临领域适配难题，例如通过合成语音技术将科学文本转化为语音数据时需保持语义连贯性，且需平衡不同语言对的资源分布。此外，受限赛道仅允许使用特定基础模型，迫使研究者在有限架构下实现质量突破，而多语言摘要与问答数据的生成更依赖大语言模型的迁移能力，其幻觉抑制与跨语言一致性保障成为关键瓶颈。

常用场景

经典使用场景

在语音处理研究领域，该数据集专为IWSLT 2025指令跟随任务设计，聚焦长语音输入的处理挑战。其核心应用场景涵盖自动语音识别、语音翻译、口语问答和口语摘要四大任务，通过整合多语言数据与人工增强技术，为模型在科学领域的指令理解能力提供标准化评估框架。

衍生相关工作

基于该数据集衍生的经典研究包括对SeamlessM4T-Large和LLaMA-3.1-8B-Instruct模型的深度适配工作，如NUTSHELL语料的领域迁移增强、多语言摘要生成框架的构建等。这些成果显著提升了语音模型在复杂指令场景下的鲁棒性与生成质量。

数据集最近研究