邓东华|学术研究数据集|专家资料数据集
收藏AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
CAMUS_public-ImageMask-Dataset
这是一个用于图像分割的CAMUS_public(心脏多结构超声分割采集)数据集。该数据集包含来自500名患者的临床检查,这些检查在法国圣艾蒂安大学医院进行,并根据当地伦理委员会的规定进行了完全匿名化处理。数据集旨在执行左心室射血分数测量,并反映了临床实践中的数据多样性,包括图像质量和病理情况的广泛变异。数据集分为训练集(450名患者)和测试集(50名新患者),原始输入图像以raw/mhd文件格式提供。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
google/speech_commands
SpeechCommands数据集包含一秒钟的.wav音频文件,每个文件包含一个单独的英语单词或背景噪音。这些单词来自一组命令,并由不同的说话者录制。数据集有两个版本,v0.01和v0.02,分别包含64,727和105,829个音频文件。数据集的主要任务是关键词检测,即通过分类将话语分类为预定义的单词集。数据集的语言为英语,数据集的创建目的是为了帮助训练简单的机器学习模型。
hugging_face 收录