five

TALCS 语料库|语音识别数据集|混合语言数据集

收藏
arXiv2022-06-27 更新2024-06-21 收录
语音识别
混合语言
下载链接:
https://ai.100tal.com/dataset
下载链接
链接失效反馈
资源简介:
TALCS 语料库是由好未来教育集团创建的一个开放源代码的中英混合语音识别语料库,包含约587小时的16kHz采样语音数据。该数据集来源于真实的在线一对一英语教学场景,涵盖了大量的中英混合语音样本,适用于训练和评估混合语言语音识别系统。TALCS 语料库分为训练集、开发集和测试集,旨在解决中英混合语音识别中的数据稀缺问题,并推动混合语言语音识别技术的发展。
提供机构:
好未来教育集团
创建时间:
2022-06-27
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

ADNI

阿尔茨海默病神经影像研究计划 (ADNI) 是一项多站点研究,旨在改善预防和治疗阿尔茨海默病 (AD) 的临床试验。[1] 这项合作研究结合了私营和公共部门的专业知识和资金,以研究患有AD的受试者,以及那些可能发展成AD和控制没有认知障碍迹象的人。[2] 美国和加拿大63个地点的研究人员通过神经影像学,生化,和遗传生物标记。[2][3] 这些知识有助于找到更好的预防和治疗AD的临床试验。ADNI已经产生了全球性的影响,[4] 首先是通过开发一套标准化的协议,以允许对来自多个中心的结果进行比较,[4] 其次是其数据共享政策,该政策使所有数据在没有禁运的情况下提供给世界各地的合格研究人员。[5] 迄今为止,超过1000份科学出版物使用了ADNI数据。[6] 许多其他与AD和其他疾病相关的计划已经使用ADNI作为模型来设计和实施。[4] ADNI一直在2004年运行,目前2021年获得资助。

OpenDataLab 收录