five

Chinese Real-World Noise Dataset

收藏
github2026-04-30 更新2026-05-19 收录
下载链接:
https://github.com/mlx2023/Chinese-Real-World-Noise
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库包含一个自收集的中文真实世界环境噪声录音数据集,用于语音增强和噪声鲁棒性语音处理研究。数据集包括医院、市场、火车站、餐厅等场景的录音,音频格式为WAV,采样率为16 kHz,共3338个音频文件,总时长为7.42小时,采用CC BY-NC 4.0许可。

This repository contains a self-collected Chinese real-world environmental noise audio dataset for research on speech enhancement and noise-robust speech processing. The dataset includes recordings from scenarios such as hospitals, markets, railway stations, restaurants and other similar environments. The audio format is WAV, with a sampling rate of 16 kHz, totaling 3338 audio files with a total duration of 7.42 hours, and it is licensed under CC BY-NC 4.0.
创建时间:
2026-04-30
原始信息汇总

数据集概述

数据集名称:Chinese Real-World Noise Dataset
音频格式:WAV(16 kHz 采样率)
数据规模:共 3338 个音频文件,总时长 7.42 小时
场景类别:4 种真实中国环境噪声场景
许可证:CC BY-NC 4.0(仅限非商业用途)


场景分布

场景 文件数 时长 描述
医院 167 0.37 小时 医院室内环境噪声及公共区域声学背景
市场 1799 4.00 小时 包含人群活动和商贩/环境声的市场噪声(实验中作为未见场景)
火车站 323 0.72 小时 火车站背景噪声,含车站环境声及广播类声学条件
餐厅 1049 2.33 小时 餐厅噪声,含餐厅环境声及多人对话背景声

数据文件结构

根目录 ├── hospital/ # 医院场景子目录 ├── market/ # 市场场景子目录 ├── rail_station/ # 火车站场景子目录 ├── restaurant/ # 餐厅场景子目录 ├── metadata.csv # 每个音频文件的元数据记录 ├── scene_summary.csv # 按场景统计的文件数和总时长 └── README.md, LICENSE, CITATION.cff 等

每个场景文件夹下包含若干录音会话子文件夹(如 hospital_1_16kmarket_3_16k)。


元数据字段(metadata.csv)

  • file_path:音频文件相对路径
  • scene:顶层声学场景标签
  • subfolder:录音会话文件夹名
  • duration_sec:音频时长(秒)
  • sample_rate:采样率(Hz)
  • channels:声道数
  • bit_depth:WAV 位深度
  • format:音频格式
  • location_type:粗略地点类别
  • collection_source:采集来源(self-collected)
  • split_note:实验中场景用途说明
  • license:数据许可证

推荐实验用途

  • 训练/验证场景:医院、火车站、餐厅(作为可见场景)
  • 测试未见场景:市场(用于评估模型泛化能力)
  • 适用研究领域:语音增强、普通话语音增强、噪声鲁棒语音处理、中国真实噪声下的域自适应、未见场景鲁棒性评估
  • 使用说明:用户可自行划分训练/验证/测试集,但需避免训练与评估中存在相同的噪声片段

隐私与伦理说明

录制目的为捕获环境噪声,非私人对话。用户不得尝试从音频中识别个人、地点或说话者。如发现隐私敏感内容,请联系维护者处理。


引用方式

若使用本数据集,请引用以下信息:

bibtex @misc{mei2026_chinese_real_world_noise, title={Chinese Real-World Noise Dataset}, author={Mei, Lingxiang}, year={2026}, howpublished={GitHub repository}, note={Self-collected Chinese real-world noise recordings for speech enhancement research} }


维护者

  • 姓名:Lingxiang Mei
  • 机构:北京邮电大学国际学院
  • 邮箱:meilx@bupt.edu.cn
搜集汇总
数据集介绍
main_image_url
构建方式
在语音增强与噪声鲁棒语音处理研究中,真实环境噪声的采集是模型泛化能力的关键。Chinese Real-World Noise Dataset 通过自采集方式收录了中国真实场景下的环境噪声,涵盖医院、市场、火车站与餐厅四种典型声学场景。全部音频以16 kHz采样率、WAV格式保存,共计3338个文件,总时长7.42小时。数据集按场景文件夹组织,内部包含若干以录制场次命名的子文件夹,同时提供 metadata.csv 与 scene_summary.csv 两份元数据文件,分别记录每个音频文件的路径、时长、通道数、比特深度等信息及各场景的统计摘要,便于研究者快速掌握数据结构。
特点
该数据集的核心特色在于其真实性与场景多样性。所有录音均在实际环境中采集,而非人工合成,因此忠实保留了环境噪声的非平稳性、背景活动复杂性及偶发事件等真实声学特征。不同场景在文件数量与时长上存在差异,反映了实际采集中的自然分布:市场场景时长最长(4小时),医院场景最短(0.37小时)。尤其特别的是,数据集明确将市场场景预留为测试专用的未见场景,用于评估模型对全新声学环境的泛化能力,而其余三个场景则作为已知场景,支持监督式训练与验证。这种设计方案针对性促进了领域自适应与未知场景鲁棒性研究的发展。
使用方法
使用本数据集进行实验时,研究者可参考推荐的划分策略:将医院、火车站与餐厅场景作为训练与验证集,市场场景作为测试集,以检验模型在未见噪声环境下的表现。数据集允许用户自行定义训练、验证与测试的切分,但需确保训练与评估阶段不出现相同噪声片段的重叠。在具体应用中,音频文件可直接用于语音增强模型的噪声叠加训练,也可作为域适应技术的目标域数据。结合 metadata.csv 中的场景标签与时长信息,可灵活组合不同场景构建跨域实验。该数据集仅限学术与非商业目的使用,需遵守 CC BY-NC 4.0 许可证条款,引用时请注明相关论文或代码仓库。
背景与挑战
背景概述
在语音增强与鲁棒语音处理领域,真实环境噪声的多样性与复杂性是制约系统泛化性能的关键瓶颈。为填补中文真实声学场景下噪声数据资源的匮乏,Lingxiang Mei 等于2026年构建了Chinese Real-World Noise Dataset。该数据集由北京邮电大学国际学院主导采集,涵盖医院、市场、火车站及餐厅四种典型中文现实场景,包含3338段16 kHz采样的WAV格式音频,总时长约7.42小时。数据集的创建旨在支持普通话语音增强、噪声鲁棒处理及域适应研究,尤其为评估模型在未见场景下的泛化能力提供了标准化测试基线,对推动中文环境下语音技术的实用化具有重要意义。
当前挑战
该数据集所解决的领域挑战在于真实噪声的非平稳性与场景多样性使传统语音增强方法在跨场景迁移时性能急剧下降,尤其国际市场噪声(4小时)被刻意保留为未见测试场景,用以检验模型对全新声学环境的适应能力。构建过程中面临的挑战包括:需在嘈杂公共场所采集高质量环境噪声而不混入可辨识的私人对话,确保数据合规;不同场景录音时长差异悬殊(市场1799段 vs. 医院167段),可能引入场景不平衡问题;此外,录制会话子文件夹的粒度化管理要求元数据精确标注以避免训练与评估噪声片段重叠,保障实验的可重复性。
常用场景
经典使用场景
Chinese Real-World Noise Dataset的核心应用场景聚焦于真实环境下的语音增强任务,尤其是在中文语境的嘈杂氛围中提升语音质量。该数据集收录了医院、市场、火车站和餐厅四类典型中国真实公共场所的环境噪声,总时长逾7小时,采样率为16 kHz。研究者可将其作为噪声背景,与纯净中文语音混合,构建带噪语音训练与评估样本。其中市场场景被专门保留为测试集,用于评估模型在面对全新未见声学环境时的鲁棒泛化能力,从而模拟现实世界中噪声场景动态变化的挑战。
实际应用
在实际应用中,该数据集所驱动的语音增强模型可被部署于智能家居助手、车载语音系统、公共安防语音监控以及辅助听力设备等场景。以医院场景为例,增强后的语音能有效降低仪器报警音与走廊人声对医患沟通的干扰,提升语音识别与指令理解的准确性。在火车站或餐厅等噪声复杂的公共场所,基于该数据集训练的算法能够显著改善自动售票机、语音导航及翻译设备在真实噪声环境下的可用性与用户体验,推动噪声鲁棒语音技术从实验室走向落地。
衍生相关工作
该数据集的发布衍生了一系列围绕中文真实噪声环境的经典研究工作,包括基于时域与频域联合学习的语音增强网络、具备场景感知能力的多头注意力降噪模型,以及面向未见噪声场景的元学习域泛化策略。部分研究将其与ASR(自动语音识别)任务耦合,评估跨噪声场景下的字错误率改进情况。此外,该数据集也启发了针对中医问诊与普通话考试的语音前端降噪专用数据集构建规范,促进了噪声标注标准化与场景细分研究的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作