SIFT-50M

Name: SIFT-50M
Creator: 亚马逊AGI
Published: 2025-04-12 12:45:48
License: 暂无描述

arXiv2025-04-12 更新2025-04-17 收录

下载链接：

https://huggingface.co/datasets/amazon-agi/SIFT-50M

下载链接

链接失效反馈

官方服务：

资源简介：

SIFT-50M是一个大规模的多语言数据集，由亚马逊AGI创建，包含5000万个示例，旨在用于指令微调和预训练语音-文本大型语言模型(LLM)。该数据集由公开可用的语音语料库构建而成，包含14,000小时的语音，利用LLM和现成的专家模型。数据集涵盖五种语言，包含广泛的语音理解和可控语音生成指令。

SIFT-50M is a large-scale multilingual dataset developed by Amazon AGI, which consists of 50 million examples. It is designed for instruction fine-tuning and pre-training of speech-text large language models (LLMs). This dataset is constructed from publicly available speech corpora, containing 14,000 hours of speech, and leverages LLMs and off-the-shelf expert models. The dataset covers five languages and includes a wide range of speech understanding and controllable speech generation instructions.

提供机构：

亚马逊AGI

创建时间：

2025-04-12

搜集汇总

数据集介绍

构建方式

SIFT-50M数据集的构建过程充分体现了多模态数据整合的前沿方法。该数据集基于三个公开的多语言语音语料库（Multilingual Librispeech、Common Voice和VCTK），通过先进的元数据增强技术，提取了包括音高、语速、强度等14种声学特征，并利用大语言模型生成自然语言指令。构建过程采用分阶段质量验证机制，包括数值范围过滤和迭代式提示优化，最终形成包含5500万条样本的指令数据集，涵盖5种语言和6类语音理解任务。这种融合专家模型与大语言模型的方法，既保证了数据的多样性，又确保了标注的准确性。

使用方法

该数据集主要服务于语音-文本大模型的指令微调，使用时可分三个阶段：预训练阶段建议混合ASR、语音翻译等传统任务；指令微调阶段应按比例采样闭端与开放式指令；可控生成训练需单独优化声学token的生成模块。研究人员可通过HuggingFace平台获取数据，配套提供的提示模板支持端到端训练流程。特别值得注意的是，数据集的元数据结构支持灵活的任务组合，开发者可基于声学特征分类器实现zero-shot迁移，或通过修改提示模板创建新的衍生任务。

背景与挑战

背景概述

SIFT-50M是由Amazon AGI和Apple Inc.的研究团队于2025年发布的大规模多语言语音指令微调数据集，旨在支持语音-文本大语言模型（LLMs）的指令微调和预训练研究。该数据集基于公开可用的语音语料库构建，包含14K小时的语音数据，涵盖五种语言，覆盖了多样化的语音理解和可控语音生成任务。SIFT-50M的发布填补了语音-文本LLMs领域缺乏大规模指令数据集的空白，推动了语音理解任务的通用化研究。

当前挑战

SIFT-50M面临的挑战主要包括两个方面：1) 领域问题的挑战：语音-文本LLMs需要处理复杂的语音理解和生成任务，如语音识别（ASR）、情感识别（ER）和可控语音生成等，这些任务对模型的泛化能力和多语言支持提出了较高要求；2) 构建过程的挑战：数据集构建过程中需要从多语言语音数据中提取丰富的声学和内容级元数据，并利用LLMs生成多样化的指令-响应对，同时需解决元数据映射、多语言指令生成以及质量控制等问题。

常用场景

经典使用场景

SIFT-50M数据集在语音-文本大语言模型（LLM）的指令微调和预训练中展现出卓越的应用价值。该数据集通过整合多语言语音语料库，覆盖了14K小时的语音数据，并利用专家模型和LLM生成多样化的语音理解和可控语音生成指令。研究者可以基于SIFT-50M训练如SIFT-LLM这样的模型，显著提升模型在指令遵循任务中的表现，同时在基础语音任务中保持竞争力。

解决学术问题

SIFT-50M解决了语音-文本LLM领域缺乏大规模、多样化指令数据集的瓶颈问题。传统语音数据集主要针对自动语音识别（ASR）任务，缺乏自然语言指令的多样性，限制了模型在广义语音理解任务中的泛化能力。该数据集通过引入多语言、多模态的指令数据，显著提升了模型在语音理解、可控生成及跨语言任务中的表现，填补了学术研究的空白。

实际应用

在实际应用中，SIFT-50M为智能语音助手、多语言客服系统和实时语音翻译工具提供了强大的数据支持。例如，基于该数据集训练的模型能够精准识别用户语音指令中的口音、语速等特征，并生成符合特定风格（如性别、年龄、语调）的语音响应。此外，其在医疗、教育等领域的语音交互场景中也展现出潜力，如辅助听障人士或语言学习者。

数据集最近研究