Belle_1.4M-SLAM-Omni

Hugging Face2024-12-23 更新2024-12-24 收录

下载链接：

https://huggingface.co/datasets/worstchan/Belle_1.4M-SLAM-Omni

下载链接

链接失效反馈

官方服务：

资源简介：

数据集Belle_1.4M是基于原始数据集Belle_train_3.5M_CN的改进版本，主要用于支持SLAM-Omni的研究。数据集经过了数据过滤，去除了过长数据样本，并使用CosyVoice合成了语音响应的语音令牌，这些令牌作为模型训练的目标。此外，用户指令的语音也通过CosyVoice合成，使用了来自seed-tts-eval子集的1,010个中文提示中的随机音色。数据集包含多个特征，如split_name、index、round、question、question_audio、answer、answer_cosyvoice_speech_token和answer_snac等。

创建时间：

2024-12-20

原始信息汇总

Belle_1.4M-SLAM-Omni 数据集概述

数据集信息

特征

split_name: 数据集的分片名称，类型为字符串。
index: 数据的索引，类型为整数。
round: 数据的轮次，类型为整数。
question: 问题，类型为字符串。
question_audio: 问题的音频信息，包含以下子字段：
- array: 音频数据的数组，类型为浮点数序列。
- path: 音频文件的路径，类型为字符串。
- sampling_rate: 音频的采样率，类型为整数。
answer: 答案，类型为字符串。
answer_cosyvoice_speech_token: 使用 CosyVoice 合成的语音响应的语音令牌，类型为整数序列。
answer_snac: 答案的 SNAC 表示，类型为字符串。

分片

train: 训练集，包含 1,400,398 个样本，数据大小为 800,059,817,200 字节。

数据集大小

下载大小: 792,877,562,556 字节。
数据集大小: 800,059,817,200 字节。

配置

default: 默认配置，包含训练集数据文件，路径为 data/train-*。

修改与处理

数据过滤: 移除了数据过长的样本。
语音响应令牌: 使用 CosyVoice 合成了语音响应的语音令牌，并将其作为模型训练目标。
用户指令语音: 使用 CosyVoice 合成了用户指令的语音，音色从 seed-tts-eval 子集中的 1,010 个中文提示中随机选择。

数据来源

原始数据集来自 Belle_train_3.5M_CN。

搜集汇总

数据集介绍

构建方式

Belle_1.4M-SLAM-Omni数据集的构建过程经过精心设计，以支持SLAM-Omni模型的复现。首先，通过数据过滤步骤，剔除了数据过长的样本，确保数据集的质量和适用性。其次，利用CosyVoice工具合成了语音响应的对应语音标记，这些标记以`answer_cosyvoice_speech_token`的形式作为模型训练的目标。此外，用户指令的语音也通过CosyVoice合成，音色从1,010个中文提示中随机选择，进一步丰富了数据集的多样性。

特点

Belle_1.4M-SLAM-Omni数据集的显著特点在于其丰富的语音信息和高质量的数据筛选。数据集中不仅包含文本问题和答案，还包含了对应的语音数据，这为语音合成和理解任务提供了宝贵的资源。此外，数据集通过CosyVoice合成的语音标记，使得模型能够更好地学习和生成自然语言的语音响应，增强了数据集在语音处理领域的应用潜力。

使用方法

Belle_1.4M-SLAM-Omni数据集适用于多种自然语言处理和语音合成任务。用户可以通过加载数据集中的文本和语音数据，进行模型训练和评估。特别是在需要处理语音响应和用户指令的场景中，数据集的语音标记和合成语音可以作为训练目标，帮助模型学习如何生成和理解语音信息。此外，数据集的多样性和高质量筛选也使其成为研究语音合成和自然语言处理技术的理想选择。

背景与挑战

背景概述

Belle_1.4M-SLAM-Omni数据集是由相关研究人员基于Belle_train_3.5M_CN数据集进行筛选和扩展后构建的，旨在支持SLAM-Omni模型的复现研究。该数据集的核心研究问题涉及多模态对话系统的训练与优化，特别是语音与文本的联合处理。通过引入CosyVoice工具，数据集不仅包含了文本形式的问答对，还生成了相应的语音响应标记，进一步丰富了数据的多模态特性。这一数据集的构建为多模态对话系统的研究提供了重要的资源，尤其是在语音合成与自然语言处理交叉领域，具有显著的学术价值和应用潜力。

当前挑战

Belle_1.4M-SLAM-Omni数据集在构建过程中面临多项挑战。首先，数据筛选过程中需处理大量冗长数据，确保数据质量与模型训练的有效性。其次，语音响应标记的生成依赖于复杂的语音合成技术，如何保证语音与文本的一致性及自然度是一个技术难点。此外，用户指令语音的合成涉及多种音色选择，需在多样性与一致性之间找到平衡。这些挑战不仅影响了数据集的构建效率，也对后续模型的训练与性能提出了更高的要求。

常用场景

经典使用场景

Belle_1.4M-SLAM-Omni数据集在语音合成与多模态学习领域具有广泛应用。其经典使用场景包括利用数据集中的语音和文本对进行多模态模型的训练，特别是在语音识别与合成任务中，通过结合文本与语音数据，提升模型在复杂环境下的表现。此外，该数据集还可用于评估和优化语音合成系统的自然度和准确性，尤其是在多语言和多音色场景下的应用。

衍生相关工作

基于Belle_1.4M-SLAM-Omni数据集，研究者们开展了多项经典工作，包括多模态模型的优化、语音合成技术的改进以及语音识别系统的增强。例如，通过数据集中的语音和文本对，研究者开发了更高效的多模态融合算法，提升了语音识别的准确率。此外，数据集还激发了在语音合成领域的新研究，如音色迁移和多语言语音合成，进一步推动了语音技术的发展。

数据集最近研究