Voice-Note-Audio
收藏Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/danielrosehill/Voice-Note-Audio
下载链接
链接失效反馈官方服务:
资源简介:
Voice Notes是一个由Daniel Rosehill在耶路撒冷及其周边地区收集的语音笔记数据集,包含多种声学环境下的录音,反映日常使用语音转文本应用的习惯。数据集包括丰富的标注信息,如修正后的转录文本、音频质量评分、环境信息、内容分类、音频挑战、语言信息、实体识别和音频源识别。该数据集旨在评估和改进非理想、真实世界条件下语音转文本(STT)系统的鲁棒性,并为个人STT微调、语音笔记实体识别和公共研究数据集提供支持。
创建时间:
2025-08-14
原始信息汇总
Voice Note Audio 数据集概述
数据集基本信息
- 名称:Voice Note Audio
- 许可协议:MIT
- 语言:英语(en)
- 任务类别:自动语音识别(automatic-speech-recognition)
- 规模:小于1K样本(n<1K)
- 标签:语音转文本、噪声鲁棒性、评估、Whisper
数据集内容
该数据集包含Daniel Rosehill在耶路撒冷及周边地区收集的语音笔记,涵盖多种声学环境和格式,反映日常语音转文本转录应用的典型使用场景。
数据组成
- 音频文件:约700条语音笔记,总计13小时音频(MP3/WAV格式)
- 转录文本:
- 未校正转录:AI生成的原始转录
- 真实标注:手动校正后的转录(作为训练和评估的基准真值)
- 丰富标注:使用Label Studio收集的详细标注信息
标注信息
音频质量特征
- 交通噪声
- 可闻对话
- 室外噪声(一般)
- 背景音乐
- 婴儿哭声
语言信息
- 背景对话语言:英语、希伯来语、阿拉伯语、法语、俄语
- 多语言转录标识
实体识别
- 日期
- 人名
- 地名
- 电子邮件地址
- 博客标题
- 缩写词
- 组织机构名称
技术参数
- 蓝牙编解码器:SBC、AAC、aptX、aptX HD、LDAC、LC3等
- 麦克风类型:OnePlus Nord 3内置麦克风、Poly 5200、ATR 4697
数据组织结构
audio/ - 处理后的音频文件(MP3/WAV) transcripts/ - 转录文件 uncorrected/ - AI生成的转录 ground_truths/ - 手动校正的转录(基准真值) annotations/ - 标注任务文件和完成的标注
主要用途
- 个人STT微调:针对个人语音模式和常见录音环境优化转录模型
- 语音笔记实体识别:开发"Voice Router"应用的实体分类和识别模型
- 公共研究数据集:为语音识别研究社区提供全面的开源数据集
数据集特点
- 真实世界的非理想录音条件
- 丰富的声学环境多样性
- 详细的元数据标注
- 适用于噪声鲁棒性评估
搜集汇总
数据集介绍

构建方式
在语音识别研究领域,真实环境下的语音数据对于模型鲁棒性评估至关重要。Voice-Note-Audio数据集通过采集耶路撒冷及周边地区多种声学环境中的语音备忘录构建而成,采用Label Studio平台进行多维度标注,涵盖修正后转录文本、音频质量评级、环境信息、内容分类及实体识别等丰富元数据。数据收集过程模拟日常语音转录应用场景,使用包括手机内置麦克风、蓝牙麦克风和专业麦克风等多种设备,确保数据源的多样性和真实性。
特点
该数据集的核心价值在于其高度真实的声学环境和精细的结构化标注。约700条语音备忘录总计13小时音频数据,覆盖交通噪声、人声对话、背景音乐等多种干扰场景,并特别标注婴儿啼哭等新兴噪声类型。每条数据均包含AI生成转录与人工修正的双版本文本,支持多语言背景对话识别和蓝牙编解码器元数据记录。实体标注体系涵盖日期、人名、地名、邮箱等七类常见命名实体,为语音实体识别任务提供坚实基础。
使用方法
研究者可利用该数据集进行三大核心任务:基于真实噪声环境的语音识别模型鲁棒性评估,通过对比AI转录与人工修正文本分析模型弱点;针对个人语音模式的STT模型微调,利用标注的声学环境和设备信息构建个性化适配方案;开发语音备忘录实体识别系统,借助丰富的实体标注训练分类模型实现智能内容路由。数据采用标准目录结构组织,音频与转录文本一一对应,annotation目录提供完整的标注工作流配置方案。
背景与挑战
背景概述
Voice-Note-Audio数据集由Daniel Rosehill于耶路撒冷及周边地区采集构建,聚焦于真实环境下的语音识别研究。该数据集涵盖多场景录音,旨在通过多样化声学环境下的语音样本,推动语音转写技术在实际应用中的鲁棒性发展。其核心研究问题在于解决非理想录音条件下的语音识别挑战,为个性化语音模型优化及实体识别提供数据支撑,对增强语音技术的实用性与适应性具有显著影响力。
当前挑战
该数据集致力于应对真实环境中语音识别的多重挑战,包括背景噪声干扰、多语言混杂、设备异构性以及实体识别复杂性。构建过程中面临声学环境多样性导致的标注一致性难题,需人工校正AI转录文本以建立高质量基准;同时,多源麦克风与蓝牙编解码器的差异进一步增加了数据标准化与标注系统设计的复杂度。
常用场景
经典使用场景
语音识别研究领域常面临真实环境下的音频处理挑战,Voice-Note-Audio数据集通过收录耶路撒冷地区多种声学环境下的语音笔记,为自动语音识别系统提供了典型的日常使用场景测试样本。该数据集特别适用于评估STT系统在非理想条件下的鲁棒性,包括交通噪声、人声干扰和多语言背景音等复杂声学环境,为模型在真实场景中的性能验证提供了重要基准。
实际应用
在实际应用层面,该数据集可直接用于个性化语音转录系统的开发,通过针对特定用户的语音模式和常用录音环境进行模型微调,显著提升个人语音笔记的转写准确率。同时,其丰富的实体标注信息支持智能语音路由应用的开发,能够实现语音内容的自动分类和定向处理,为语音助手、会议记录系统和多语言翻译服务等实际应用提供了重要的数据基础。
衍生相关工作
基于该数据集的特性和标注体系,已衍生出多个重要研究方向,包括基于Whisper模型的个性化微调研究、多语言环境下的语音分离技术开发,以及面向语音笔记的实体识别系统构建。这些工作充分利用了数据集提供的详细环境元数据和高质量人工校正转录,推动了噪声鲁棒性语音识别、跨语言语音处理和智能语音内容分析等领域的创新研究。
以上内容由遇见数据集搜集并总结生成



