UltraChat-300K-SLAM-Omni

Hugging Face2024-12-23 更新2024-12-24 收录

下载链接：

https://huggingface.co/datasets/worstchan/UltraChat-300K-SLAM-Omni

下载链接

链接失效反馈

官方服务：

资源简介：

UltraChat-300K数据集支持SLAM-Omni的复现，包含多个特征如split_name、index、round、question、question_audio、answer、answer_snac和answer_cosyvoice_speech_token。数据集经过数据过滤，移除了过长数据，并使用CosyVoice合成了语音响应标记和用户指令语音。数据集分为训练集，包含301187个样本。

The UltraChat-300K dataset supports the reproduction of SLAM-Omni, and includes multiple features such as split_name, index, round, question, question_audio, answer, answer_snac, and answer_cosyvoice_speech_token. The dataset has been filtered to remove excessively long samples, and speech response tokens and user instruction speech audio were synthesized using CosyVoice. It is partitioned into the training set, which contains 301,187 samples.

创建时间：

2024-12-19

原始信息汇总

UltraChat-300K

数据集概述

许可证: MIT
数据集大小: 199,700,323,461 字节
下载大小: 197,380,692,933 字节
训练集: 301,187 个样本

数据集特征

split_name: 字符串类型
index: 整数类型
round: 整数类型
question: 字符串类型
question_audio: 结构体类型，包含以下字段：
- array: 浮点数序列
- path: 字符串类型
- sampling_rate: 整数类型
answer: 字符串类型
answer_snac: 字符串类型
answer_cosyvoice_speech_token: 整数序列

数据集配置

配置名称: default
数据文件:
- 训练集: data/train-*

数据集修改

数据过滤: 移除了数据过长的样本。
语音响应令牌: 使用 CosyVoice 合成了对应的语音令牌，作为模型训练目标。
用户指令语音: 使用 CosyVoice 合成了用户指令的语音，音色从 seed-tts-eval 子集中的 1,007 个英语提示中随机选择。

数据来源

原始数据集来自 ultrachat。

搜集汇总

数据集介绍

构建方式

UltraChat-300K-SLAM-Omni数据集的构建过程经过精心设计，以支持SLAM-Omni模型的复现。首先，通过数据过滤步骤，剔除了数据中过长的样本，确保了数据集的质量和适用性。其次，利用CosyVoice工具合成了语音响应的对应语音标记，这些标记以`answer_cosyvoice_speech_token`的形式被纳入模型训练目标。此外，用户指令的语音合成采用了CosyVoice工具，并从seed-tts-eval子集中随机选择了1,007个英语提示的音色，以增强语音数据的多样性和真实性。

特点

UltraChat-300K-SLAM-Omni数据集的显著特点在于其丰富的语音和文本数据结合。数据集不仅包含了标准的文本问答对，还引入了语音响应的语音标记，这为多模态学习提供了可能。此外，用户指令的语音合成采用了多样化的音色，使得数据集在语音合成和语音识别任务中具有较高的实用价值。数据集的规模和多样性使其成为研究多模态对话系统的理想选择。

使用方法

UltraChat-300K-SLAM-Omni数据集适用于多种自然语言处理和语音处理任务。研究者可以利用该数据集进行多模态对话系统的训练和评估，特别是在语音响应和语音合成方面。数据集中的`answer_cosyvoice_speech_token`可以作为模型训练的目标，帮助模型学习如何生成自然的语音响应。此外，数据集的语音部分也可以用于语音识别和语音合成的研究，为开发更智能的语音交互系统提供数据支持。

背景与挑战

背景概述

UltraChat-300K-SLAM-Omni数据集是由一支专注于语音合成与对话系统研究的团队创建，旨在支持SLAM-Omni模型的复现。该数据集的核心研究问题涉及多模态对话系统的构建，特别是如何在对话中有效整合语音与文本信息。通过引入CosyVoice语音合成技术，数据集不仅包含了传统的文本对话数据，还增加了语音响应的合成标记，从而为模型训练提供了更为丰富的多模态输入。该数据集的创建时间为2024年，主要研究人员来自相关领域的知名机构，其研究成果对提升对话系统的自然交互能力具有重要影响。

当前挑战

UltraChat-300K-SLAM-Omni数据集在构建过程中面临多项挑战。首先，数据过滤过程中需处理大量冗长数据，确保数据集的质量与实用性。其次，语音响应标记的生成依赖于复杂的语音合成技术，如何确保合成语音的自然性与准确性是一大难题。此外，用户指令语音的合成涉及多种音色选择，需在多样性与一致性之间找到平衡。这些挑战不仅涉及技术实现，还对数据集的多样性和实用性提出了更高要求。

常用场景

经典使用场景

UltraChat-300K-SLAM-Omni数据集在自然语言处理领域中，主要用于支持对话系统的训练与评估。其经典使用场景包括构建多轮对话模型，通过丰富的对话数据提升模型的上下文理解能力。此外，数据集中的语音合成标记（如`answer_cosyvoice_speech_token`）为语音对话系统的开发提供了重要支持，使得模型能够在语音与文本之间进行无缝转换。

衍生相关工作

基于UltraChat-300K-SLAM-Omni数据集，研究者们开发了多种对话系统和语音合成模型。例如，利用数据集中的语音响应标记，研究者们构建了高效的语音合成模型，提升了语音助手的自然度和响应速度。此外，该数据集还促进了多模态对话系统的研究，推动了语音与文本混合模型的技术进步。

数据集最近研究