omni-400k-with-meta
收藏VoiceAssistant-400K 数据集概述
数据集基本信息
- 数据集名称: VoiceAssistant-400K
- 总样本数: 470,054个问答对
- 数据集大小: 约162 GB
- 下载大小: 约219 GB
- 许可证: Apache 2.0
数据特征结构
| 特征名称 | 数据类型 | 描述 |
|---|---|---|
split_name |
string | 数据集划分标识符 |
index |
string | 唯一样本标识符 |
round |
string | 对话轮次数 |
question |
string | 问题的文本转录 |
question_audio |
audio | 问题的音频录音(16kHz WAV) |
answer |
string | 文本响应/答案 |
answer_snac |
string | SNAC编码的答案表示 |
数据处理流程
音频特征提取
- 使用librosa以16kHz采样率加载音频文件
- 提取音频时长(秒)
- 通过回退机制验证音频文件完整性
人口统计与情感分析
提取属性:
- 年龄组别:
AGE_0_18,AGE_18_30,AGE_30_45,AGE_45_60,AGE_60_PLUS - 性别:
GENDER_FEMALE,GENDER_MALE,GENDER_OTHER - 情感: 分类为情感状态(高兴、悲伤、愤怒、中性等)
实体与意图标注
实体类型:
- 产品/服务相关:
PRODUCT,SERVICE,FEATURE,FUNCTIONALITY - 健康与健身:
BODY_PART,DIET_FOOD,HEALTH_METRIC,EQUIPMENT,ACTIVITY - 通用:
PERSON_NAME,LOCATION,ORGANIZATION,DATE_TIME,TECHNOLOGY - 动作:
TASK,CAPABILITY,DURATION,REPETITION
意图类别:
INTENT_INTRODUCTION- 自我介绍或问候INTENT_QUESTION- 寻求信息的直接问题INTENT_INFORMATIONAL- 提供事实信息INTENT_INSTRUCTION- 逐步指导或命令INTENT_PERSONAL_EXPERIENCE- 分享个人故事/经验INTENT_MOTIVATION- 鼓励或激励内容INTENT_OTHER- 其他意图类型
最终输出格式
json { "question_audio_path": "/path/to/audio.wav", "question_text": "ENTITY_... 标注的问题 ... AGE_18_30 GENDER_FEMALE EMOTION_NEUTRAL INTENT_QUESTION", "answer_text": "ENTITY_... 标注的答案 ... INTENT_INFORMATIONAL", "audio_duration_s": 3.45, "source_index": "01625", "source_key": "unique_hash_or_index" }
性能特征
- 处理速度: 约25-50个样本/分钟(取决于Gemini API延迟)
- 内存使用: 约2-4 GB RAM(具有积极的清理机制)
- GPU使用: 可选(支持CPU回退)
- 批处理优化: 与顺序处理相比减少约20倍的API调用
使用示例
python from datasets import load_dataset
加载完整数据集
dataset = load_dataset("path/to/VoiceAssistant-400K")
访问样本
for example in dataset[train]: print(f"问题: {example[question]}") print(f"答案: {example[answer]}") print(f"音频: {example[question_audio][array]}") # NumPy数组 print(f"采样率: {example[question_audio][sampling_rate]}") # 16000 Hz
引用格式
bibtex @dataset{voiceassistant400k, title={VoiceAssistant-400K: A Large-Scale Voice Assistant Dataset}, author={WhissleAI}, year={2024}, url={https://huggingface.co/datasets/WhissleAI/VoiceAssistant-400K} }




