TUT Sound Events 2022|声音事件检测数据集|声音分类数据集
收藏
- TUT Sound Events 2022数据集首次发表,该数据集专注于声音事件的检测与分类,为音频处理领域的研究提供了新的基准。
- 1TUT Sound Events 2022: A Comprehensive Dataset for Environmental Sound AnalysisTampere University · 2022年
- 2Environmental Sound Classification Using TUT Sound Events 2022 DatasetUniversity of Helsinki · 2023年
- 3Deep Learning Approaches for Sound Event Detection Using TUT Sound Events 2022Aalto University · 2023年
- 4Comparative Analysis of Sound Event Detection Algorithms on TUT Sound Events 2022University of Turku · 2023年
- 5Real-time Sound Event Detection with TUT Sound Events 2022 DatasetUniversity of Oulu · 2023年
CosyVoice 2
CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。
arXiv 收录
google/speech_commands
SpeechCommands数据集包含一秒钟的.wav音频文件,每个文件包含一个单独的英语单词或背景噪音。这些单词来自一组命令,并由不同的说话者录制。数据集有两个版本,v0.01和v0.02,分别包含64,727和105,829个音频文件。数据集的主要任务是关键词检测,即通过分类将话语分类为预定义的单词集。数据集的语言为英语,数据集的创建目的是为了帮助训练简单的机器学习模型。
hugging_face 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
NWPU VHR-10 dataset
NWPU VHR-10数据集是一个包含10个类别地理空间目标检测的挑战性数据集。该数据集共包含800张VHR光学遥感图像,其中715张彩色图像来自Google Earth,空间分辨率在0.5至2米之间,85张全色锐化彩色红外图像来自Vaihingen数据,空间分辨率为0.08米。数据集分为两部分:a) 正图像集,包含至少一个目标的650张图像;b) 负图像集,包含150张不包含任何目标的图像。从正图像集中,手动标注了757架飞机、302艘船只、655个储罐、390个棒球场、524个网球场、159个篮球场、163个田径场、224个港口、124座桥梁和477辆车辆,使用边界框和实例掩码作为地面实况。
github 收录