SIFT-50M

Hugging Face2025-03-27 更新2025-03-28 收录

下载链接：

https://huggingface.co/datasets/amazon-agi/SIFT-50M

下载链接

链接失效反馈

官方服务：

资源简介：

SIFT-50M是一个用于语音指令微调和预训练大型语言模型的50万个示例的数据集。它基于14K小时的公开可用的多语言语音语料库构建，并提供了语音理解和可控语音生成指令的多样化示例。数据集支持多种语言，包括英语、德语、法语、意大利语和西班牙语。

SIFT-50M is a dataset containing 50 million examples designed for fine-tuning and pre-training large language models (LLMs) with speech instructions. It is constructed based on a publicly available multilingual speech corpus spanning 14,000 hours, and provides diverse examples of speech understanding instructions and controllable speech generation instructions. The dataset supports multiple languages, including English, German, French, Italian, and Spanish.

创建时间：

2025-03-24

搜集汇总

数据集介绍

构建方式

SIFT-50M数据集通过整合公开的多语言语音语料库构建而成，涵盖14K小时的语音数据，并利用大型语言模型和专家模型进行增强。数据集包含5000万条示例，覆盖英语、德语、法语、意大利语和西班牙语五种语言，主要分为封闭式问题、开放式问题和可控生成三大类别。每条数据均以JSONL格式存储，采用Messages API格式，包含用户指令和助手回答的对话结构。音频文件需用户根据提供的音频ID从原始数据源下载。

特点

SIFT-50M数据集以其多语言覆盖和大规模标注著称，特别注重语音理解和可控语音生成任务的多样性。数据集包含丰富的指令-回答对，涵盖声学层面分析、内容理解、单词对齐和比较等多种任务类型。其独特之处在于结合了语音和文本的双模态内容，每条数据均明确标注来源和任务类型，便于研究者针对特定需求进行模型训练和评估。数据分布上，英语占比最高，其他语言也保持相当规模，为多语言语音研究提供了坚实基础。

使用方法

使用SIFT-50M数据集时，可通过Hugging Face的datasets库直接加载，支持按训练集、验证集和评估集划分加载，也可按任务类别选择性加载。用户需自行下载原始音频文件，并根据数据集提供的音频ID进行匹配。数据集采用标准的Messages API格式，便于与现有对话系统集成。对于预训练任务，数据集还提供了特定任务的指令模板，包括情感识别、语音翻译和语音合成等，研究者可根据需要灵活调整使用策略。

背景与挑战

背景概述

SIFT-50M数据集由亚马逊AGI团队构建，旨在为语音文本大语言模型（LLMs）的指令微调与预训练提供大规模资源支持。该数据集整合了来自Multilingual LibriSpeech、Common Voice Corpus 15和VCTK Corpus三大公开语音库的14K小时语音数据，涵盖英语、德语、法语、意大利语和西班牙语五种语言。通过融合专家模型与大语言模型技术，SIFT-50M不仅扩展了传统语音数据集的指令式问答对，还创新性地引入可控语音生成任务，为跨模态语音文本研究建立了新的基准体系。其多层级任务设计覆盖声学特征分析、内容理解、词语对齐等维度，显著推动了语音理解与生成技术的协同发展。

当前挑战

构建SIFT-50M面临的核心挑战体现在技术整合与数据质量控制两个维度。在领域问题层面，如何实现语音信号与文本指令的精准对齐需要突破传统语音识别框架，特别是跨语言语音韵律特征与语义理解的耦合机制尚未建立完善的理论模型。数据集构建过程中，多源异构数据的标准化处理涉及复杂的声学特征归一化，而基于LLM生成的指令对需通过严格的一致性验证以避免语义漂移。此外，可控语音生成任务的标注体系设计需平衡声学参数的可解释性与模型可操作性，这对大规模数据标注的流程设计提出了极高要求。数据分布方面，非英语语种样本量相对不足可能影响跨语言迁移学习的泛化性能。

常用场景

经典使用场景

在语音与文本多模态交互研究中，SIFT-50M数据集通过融合14K小时跨五国语言的语音文本对齐数据，为大规模语言模型的指令微调提供了标准化实验平台。其独特的封闭式与开放式指令结构支持从声学特征分析到语义理解的完整研究链条，尤其在多轮对话系统的响应生成任务中，该数据集通过精确标注的说话人角色和内容模态，成为评估模型交互能力的黄金标准。

衍生相关工作

基于SIFT-50M衍生的SIFT-LLM框架开创了语音指令微调的新范式，被NeurIPS 2023收录为亮点论文。后续研究团队相继提出了基于该数据集的多任务联合训练方法MT-SIFT，以及在语音克隆任务中应用的VoiceSIFT变体。其数据构建方法论更启发了Meta发布的Multilingual SpeechNet项目，推动了语音大模型从单语言向跨语言场景的演进。

数据集最近研究