AISHELL-4|语音识别数据集|会议场景语音处理数据集

OpenDataLab2025-03-29 更新2024-05-09 收录

语音识别

会议场景语音处理

下载链接：

https://opendatalab.org.cn/OpenDataLab/Aishell4

下载链接

链接失效反馈

资源简介：

AISHELL-4是一个由8通道圆形麦克风阵列收集的大型真实录制的普通话语音数据集，用于会议场景中的语音处理。该数据集由 211 个录制的会议会议组成，每个会议会议包含 4 至 8 名发言者，总时长为 120 小时。该数据集旨在从三个方面架起多说话人处理的高级研究和实际应用场景的桥梁。通过真实录制的会议，AISHELL-4 在对话中提供逼真的声学效果和丰富的自然语音特征，如短暂停顿、语音重叠、发言者快速转向、噪音等。同时，AISHELL 中为每个会议提供准确的转录和发言者语音活动-4。这使得研究人员能够探索会议处理的不同方面，范围从语音前端处理、语音识别和说话人二值化等单独任务，到相关任务的多模态建模和联合优化。我们还发布了基于 PyTorch 的培训和评估框架作为基线系统，以促进该领域的可重复研究。基线系统代码和生成的示例可用在这里。

提供机构：

OpenDataLab

创建时间：

2023-06-25

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息，数据通过爬虫技术获取并整理成CSV格式，用于音乐数据挖掘和推荐系统构建。

github 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建，包含约80,000帧从10小时无人机拍摄视频中精选的图像，覆盖多种复杂城市环境。数据集主要关注车辆目标，每帧均标注了边界框及多达14种属性，如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究，解决高密度、小目标、相机运动等挑战，适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集：SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV，以及由国防科技大学团队开发的数据集，包括模拟陆基和太空基数据，以及真实手动标注的太空基数据。数据集包含具有各种目标形状（如点目标、斑点目标、扩展目标）、波长（如近红外、短波红外和热红外）、图像分辨率（如256、512、1024、3200等）的图像，以及不同的成像系统（如陆基、空基和太空基成像系统）。

github 收录

YOLO-dataset

该数据集用于训练YOLO模型，包括分类、检测和姿态识别模型。目前支持v8版本，未来计划支持更多版本。

github 收录