omni-400k-with-meta

Hugging Face2025-10-25 更新2025-10-26 收录

下载链接：

https://huggingface.co/datasets/WhissleAI/omni-400k-with-meta

下载链接

链接失效反馈

官方服务：

资源简介：

VoiceAssistant-400K数据集包含470,054个问答对及其音频录音，旨在用于语音助手训练和研究。数据集经过全面注释流程处理，丰富了原始问答对，包括人口统计学属性、情感上下文、实体注释和意图分类。

创建时间：

2025-10-25

原始信息汇总

VoiceAssistant-400K 数据集概述

数据集基本信息

数据集名称: VoiceAssistant-400K
总样本数: 470,054个问答对
数据集大小: 约162 GB
下载大小: 约219 GB
许可证: Apache 2.0

数据特征结构

特征名称	数据类型	描述
`split_name`	string	数据集划分标识符
`index`	string	唯一样本标识符
`round`	string	对话轮次数
`question`	string	问题的文本转录
`question_audio`	audio	问题的音频录音（16kHz WAV）
`answer`	string	文本响应/答案
`answer_snac`	string	SNAC编码的答案表示

数据处理流程

音频特征提取

使用librosa以16kHz采样率加载音频文件
提取音频时长（秒）
通过回退机制验证音频文件完整性

人口统计与情感分析

提取属性：

年龄组别: AGE_0_18, AGE_18_30, AGE_30_45, AGE_45_60, AGE_60_PLUS
性别: GENDER_FEMALE, GENDER_MALE, GENDER_OTHER
情感: 分类为情感状态（高兴、悲伤、愤怒、中性等）

实体与意图标注

实体类型：

产品/服务相关: PRODUCT, SERVICE, FEATURE, FUNCTIONALITY
健康与健身: BODY_PART, DIET_FOOD, HEALTH_METRIC, EQUIPMENT, ACTIVITY
通用: PERSON_NAME, LOCATION, ORGANIZATION, DATE_TIME, TECHNOLOGY
动作: TASK, CAPABILITY, DURATION, REPETITION

意图类别：

INTENT_INTRODUCTION - 自我介绍或问候
INTENT_QUESTION - 寻求信息的直接问题
INTENT_INFORMATIONAL - 提供事实信息
INTENT_INSTRUCTION - 逐步指导或命令
INTENT_PERSONAL_EXPERIENCE - 分享个人故事/经验
INTENT_MOTIVATION - 鼓励或激励内容
INTENT_OTHER - 其他意图类型

最终输出格式

json { "question_audio_path": "/path/to/audio.wav", "question_text": "ENTITY_... 标注的问题 ... AGE_18_30 GENDER_FEMALE EMOTION_NEUTRAL INTENT_QUESTION", "answer_text": "ENTITY_... 标注的答案 ... INTENT_INFORMATIONAL", "audio_duration_s": 3.45, "source_index": "01625", "source_key": "unique_hash_or_index" }

性能特征

处理速度: 约25-50个样本/分钟（取决于Gemini API延迟）
内存使用: 约2-4 GB RAM（具有积极的清理机制）
GPU使用: 可选（支持CPU回退）
批处理优化: 与顺序处理相比减少约20倍的API调用

使用示例

python from datasets import load_dataset

加载完整数据集

dataset = load_dataset("path/to/VoiceAssistant-400K")

访问样本

for example in dataset[train]: print(f"问题: {example[question]}") print(f"答案: {example[answer]}") print(f"音频: {example[question_audio][array]}") # NumPy数组 print(f"采样率: {example[question_audio][sampling_rate]}") # 16000 Hz

引用格式

bibtex @dataset{voiceassistant400k, title={VoiceAssistant-400K: A Large-Scale Voice Assistant Dataset}, author={WhissleAI}, year={2024}, url={https://huggingface.co/datasets/WhissleAI/VoiceAssistant-400K} }

搜集汇总

数据集介绍

构建方式

在语音助手技术蓬勃发展的背景下，omni-400k-with-meta数据集通过多阶段处理流程构建而成。原始音频数据以16kHz采样率采集，结合预训练模型进行年龄、性别和情感特征提取，并利用Google Gemini 2.0 Flash模型实现实体识别与意图分类。该流程采用批量处理架构，通过智能标注将人口统计属性与语义信息嵌入文本序列，最终形成包含47万对问答数据的结构化语料库。

使用方法

针对语音技术研发需求，研究者可通过标准数据加载接口快速获取数据集。利用内置的元数据标签，可实现基于年龄群体、情感状态或意图类别的数据筛选。音频数据可直接输入声学模型进行特征提取，而嵌入实体标注的文本序列则适用于对话状态跟踪和语义理解任务的训练，为端到端语音助手系统开发提供完整的数据支撑。

背景与挑战

背景概述

语音助手技术作为人机交互领域的重要分支，其发展高度依赖大规模高质量语音-文本配对数据。由WhissleAI于2024年发布的Omni-400k-with-meta数据集，汇集了47万条涵盖多轮对话的语音问答数据，每条数据均包含16kHz音频波形与文本转录。该数据集通过集成人口属性分析、情感识别和实体标注等多维元数据，为构建具备情境感知能力的智能语音系统提供了重要基础，显著推动了对话式人工智能在鲁棒性和个性化方向的研究进程。

当前挑战

在语音助手领域，该数据集致力于解决多模态语义理解与个性化交互的核心难题，具体体现为跨模态对齐的复杂性——需同步处理语音信号的声学特征与文本的语义信息。数据构建过程中面临多重挑战：音频质量一致性控制需应对环境噪声和录音设备差异；元数据标注体系需平衡细粒度属性（如年龄分段、情感状态）与标注效率；大规模数据处理中还需克服计算资源消耗与API调用稳定性的技术瓶颈。

常用场景

经典使用场景

在语音助手技术领域，Omni-400k数据集凭借其47万条带音频标注的对话样本，为多模态语音交互系统提供了关键训练资源。该数据集通过融合语音信号与文本转录的平行结构，支持端到端的语音理解与生成模型开发。其独特的音频特征提取与意图分类标注体系，使得研究者能够构建具备上下文感知能力的对话系统，显著提升了语音助手在复杂场景下的交互流畅度与语义理解精度。

解决学术问题

该数据集有效解决了语音技术研究中多模态对齐的经典难题，通过同步提供音频波形与文本标注，为跨模态表示学习提供了理想实验平台。其内置的年龄分组、性别识别和情感分类标签，助力研究者探索语音特征与社会属性间的关联规律。在对话系统领域，该数据集通过细粒度的意图分类体系，推动了基于深度学习的对话状态跟踪与策略优化研究，为构建具备个性化适应能力的智能助手奠定数据基础。

实际应用

在商业应用层面，该数据集已广泛应用于智能音箱、车载语音系统和客服机器人等场景。其包含的多样化语音样本支持企业开发具备噪声鲁棒性的语音识别引擎，而丰富的意图标注体系则助力构建精准的垂直领域对话系统。医疗健康领域利用其标注的身体部位、健康指标等实体类型，开发出能够理解专业术语的智能问诊助手，显著提升了人机交互的实用价值与用户体验。

数据集最近研究