mixed_cantonese_and_english_speech|语音识别数据集|多语言处理数据集
收藏数据集概述
数据集信息
- 特征:
audio
: 音频数据sentence
: 字符串类型,句子topic
: 字符串类型,主题
- 分割:
train
: 训练集,包含2814141308.757字节,14051个样本
- 下载大小: 3737048044字节
- 数据集大小: 2814141308.757字节
配置
- 默认配置:
- 数据文件路径:
data/train-*
- 数据文件路径:
语言
- 粤语
详细描述
- 主题: 涵盖18个与日常生活相关的主题
- 音频时长: 总计34.8小时
- 文本标注: 包含307,540个汉字和70,132个英文单词
- 主题分析:
- "Food"类别中英文单词最多,汉字与英文单词比例约为3:1
- "Tech News"主题中英文单词最少,汉字与英文单词比例约为8:1
- 数据分割: 随机抽样后按9:1比例分为训练集和测试集
- 训练集包含31.3小时语音文件
- 音频时长分布: 主要集中在5-12秒,最长28秒
- 语音特点: 志愿者按日常习惯语速、语调录音,快慢语速均有,快语速可能增加识别难度

FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
糖尿病预测数据集
糖尿病相关的医学研究或者健康数据
AI_Studio 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录