instruction-speech-whispervq-v2

Hugging Face2024-08-19 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/homebrewltd/instruction-speech-whispervq-v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含近930,000个英语语音指令转文本答案样本，使用了homebrewltd/instruction-speech-whispervq-v1数据集的200,000个音频文本转录样本，并通过WhisperVQ进行标记化。数据集包括多个字段，如tokens（使用WhisperVQ标记化）、text_prompt（用户查询）、answer（助手回答）、length（用户查询长度）、prompt（用户查询的WhisperVQ标记化）和conversations（用户和助手之间的对话）。数据集存在一些偏差、风险和限制，如源数据的固有偏差、缺乏对提示和响应的质量控制以及Encodec可能影响声音标记质量的问题。数据集使用MIT许可证发布。

创建时间：

2024-08-14

原始信息汇总

数据集概述

数据集信息

特征字段:
- index: 整数类型
- tokens: 整数序列类型
- text_prompt: 字符串类型
- answer: 字符串类型
- length: 整数类型
- prompt: 字符串类型
- conversations: 列表类型，包含 content 和 role，均为字符串类型
数据分割:
- train: 包含 929,354 个样本，总大小为 9,103,015,549 字节
下载大小: 2,713,936,803 字节
数据集大小: 9,103,015,549 字节

数据集详情

数据集名称: instruction-speech-whispervq-v2
样本数量: 约 930,000 个英语语音指令转文本答案样本
数据来源: 结合了 homebrewltd/instruction-speech-whispervq-v1 中的 200,000 个音频-文本转录样本
分词方法: 使用 WhisperVQ 进行分词

使用方法

python from datasets import load_dataset, Audio

加载指令语音数据集

dataset = load_dataset("homebrewltd/instruction-speech-whispervq-v2", split=train)

字段说明

字段	类型	描述
`tokens`	序列	使用 WhisperVQ 分词
`text_prompt`	字符串	用户查询
`answer`	字符串	助手回答
`length`	整数	用户查询的长度
`prompt`	字符串	使用 WhisperVQ 分词的用户查询
`conversations`	序列	用户和助手之间的对话

偏差、风险和限制

数据集可能反映其来源固有的偏差
当前版本缺乏对提示和响应的质量控制
使用 Encodec 可能影响声音令牌的质量
用户在使用数据集时应考虑这些限制

许可信息

数据集发布在 MIT 许可证下

引用信息

@article{Instruction Speech 2024, title={Instruction Speech}, author={JanAI}, year=2024, month=June, url={https://huggingface.co/datasets/jan-hq/instruction-speech} }

搜集汇总

数据集介绍

构建方式

该数据集通过整合`homebrewltd/instruction-speech-whispervq-v1`中的20万条音频-文本转录样本，并利用WhisperVQ进行标记化处理，构建了一个包含近93万条英语语音指令到文本回答的样本集合。数据集的构建过程注重语音与文本的对应关系，确保了数据的多样性和丰富性。

特点

该数据集的特点在于其大规模的语音指令与文本回答的对应样本，涵盖了广泛的语音指令场景。数据集中的每个样本均经过WhisperVQ标记化处理，确保了语音数据的结构化表示。此外，数据集还包含了用户查询、助手回答、对话内容等多维度信息，为语音识别与自然语言处理任务提供了丰富的上下文信息。

使用方法

使用该数据集时，可通过Hugging Face的`datasets`库加载数据。用户只需调用`load_dataset`函数，指定数据集名称和训练集分割，即可轻松访问数据集中的语音指令与文本回答样本。数据集的结构化字段如`tokens`、`text_prompt`、`answer`等，可直接用于模型训练与评估，支持语音识别、对话生成等多种任务。

背景与挑战

背景概述

instruction-speech-whispervq-v2数据集由JanAI团队于2024年发布，旨在推动语音指令到文本回答的研究与应用。该数据集整合了约93万条英语语音指令与文本回答样本，基于WhisperVQ模型进行语音标记化处理。其核心研究问题在于如何高效地将语音指令转化为准确的文本回答，从而提升语音交互系统的智能水平。该数据集在语音识别与自然语言处理领域具有重要影响力，为相关研究提供了丰富的实验数据。

当前挑战

该数据集在构建与应用过程中面临多重挑战。首先，语音指令的多样性与复杂性使得模型在准确理解用户意图方面存在困难，尤其是在处理模糊或非标准发音时。其次，数据集中可能存在源数据固有的偏见，影响模型的公平性与泛化能力。此外，WhisperVQ标记化过程可能导致语音质量的部分损失，进一步增加了模型训练的难度。最后，数据集缺乏对提示与回答的质量控制，可能影响下游任务的表现。这些挑战需要在未来的研究中逐一解决，以提升数据集的实用性与可靠性。

常用场景

经典使用场景

在语音识别和自然语言处理领域，instruction-speech-whispervq-v2数据集被广泛应用于训练和评估语音到文本的转换模型。该数据集通过提供大量的语音指令及其对应的文本回答，使得研究人员能够深入探索语音识别技术在复杂指令理解中的应用。特别是在多轮对话系统中，该数据集能够帮助模型更好地理解上下文，从而生成更加准确的文本输出。

衍生相关工作

基于instruction-speech-whispervq-v2数据集，研究人员已经开展了多项经典工作。例如，一些研究利用该数据集开发了更加高效的语音识别模型，显著提升了模型在复杂指令理解中的表现。此外，该数据集还被用于研究多轮对话系统中的上下文理解问题，推动了对话系统的发展。这些工作不仅验证了数据集的有效性，还为未来的研究提供了重要的参考。

数据集最近研究