SLR49: AISHELL-1 Mandarin Chinese Corpus|语音识别数据集|中文普通话数据集
收藏
- AISHELL-1 Mandarin Chinese Corpus首次发布,包含178小时的高质量普通话语音数据,由400名来自不同方言区的发音人录制。
- AISHELL-1数据集在语音识别领域得到广泛应用,成为评估和训练中文语音识别系统的重要基准。
- 研究者开始利用AISHELL-1数据集进行多语言语音识别模型的研究,探索其在跨语言语音识别中的潜力。
- AISHELL-1数据集被用于开发和测试端到端语音识别系统,推动了语音识别技术的进步。
- AISHELL-1数据集的扩展版本AISHELL-2发布,进一步丰富了中文语音数据的多样性。
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
Eurovision Song Contest Dataset
Eurovision Song Contest数据集是一个免费提供的数据集,包含1735首参赛歌曲的音频特征、元数据、比赛排名和投票数据,这些歌曲参与了从1956年到2023年的Eurovision Song Contest。
github 收录