openslr/openslr|语音识别数据集|多语言数据集
收藏数据集概述
数据集名称: OpenSLR
语言:
- 支持多种语言,包括但不限于:af, bn, ca, en, es, eu, gl, gu, jv, km, kn, ml, mr, my, ne, si, st, su, ta, te, tn, ve, xh, yo
- BCP47语言代码示例: en-GB, en-IE, en-NG, es-CL, es-CO, es-PE, es-PR
许可证: cc-by-sa-4.0
多语言支持: 多语言
大小分类: 1K<n<10K
源数据集: 原始数据
任务类别: 自动语音识别
数据集结构
数据实例
- 特征:
- path: 数据路径,数据类型为字符串。
- audio: 音频数据,采样率为48000,数据类型为音频。
- sentence: 句子文本,数据类型为字符串。
数据分割
- 训练集:
- SLR41: 5822个样本,数据大小为2423902字节。
- SLR42: 2906个样本,数据大小为1427984字节。
- SLR43: 2064个样本,数据大小为1074005字节。
- SLR44: 4213个样本,数据大小为1776827字节。
- SLR63: 4126个样本,数据大小为2016587字节。
- SLR64: 1569个样本,数据大小为810375字节。
- SLR65: 4284个样本,数据大小为2136447字节。
- SLR66: 4448个样本,数据大小为1898335字节。
- SLR69: 4240个样本,数据大小为1647263字节。
- SLR35: 185076个样本,数据大小为73565374字节。
- SLR36: 219156个样本,数据大小为88942337字节。
- SLR70: 3359个样本,数据大小为1339608字节。
- SLR71: 4374个样本,数据大小为1676273字节。
- SLR72: 4903个样本,数据大小为1876301字节。
- SLR73: 5447个样本,数据大小为2084052字节。
- SLR74: 617个样本,数据大小为237395字节。
- SLR75: 3357个样本,数据大小为1286937字节。
- SLR76: 7136个样本,数据大小为2756507字节。
- SLR77: 5587个样本,数据大小为2217652字节。
- SLR78: 4272个样本,数据大小为2121986字节。
- SLR79: 4400个样本,数据大小为2176539字节。
- SLR80: 2530个样本,数据大小为1308651字节。
- SLR86: 3583个样本,数据大小为1378801字节。
- SLR32: 9821个样本,数据大小为4544052380字节。
- SLR52: 185293个样本,数据大小为77369899字节。
- SLR53: 218703个样本,数据大小为88073248字节。
- SLR54: 157905个样本,数据大小为62735822字节。
- SLR83: 17877个样本,数据大小为7098985字节。
数据集配置名称
- SLR32, SLR35, SLR36, SLR41, SLR42, SLR43, SLR44, SLR52, SLR53, SLR54, SLR63, SLR64, SLR65, SLR66, SLR69, SLR70, SLR71, SLR72, SLR73, SLR74, SLR75, SLR76, SLR77, SLR78, SLR79, SLR80, SLR83, SLR86

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录