Occurrence Download|生物多样性数据集|物种分布数据集
收藏Stanford Cars
Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像,其中每个类被大致分成50-50。类别通常在品牌,型号,年份,例如2012特斯拉Model S或2012 BMW M3 coupe的级别。
OpenDataLab 收录
THCHS-30
“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”
OpenDataLab 收录
维基百科(wiki2019zh)
维基百科json版包含104万个词条,可作为通用中文语料,用于预训练的语料或构建词向量,也可用于构建知识问答。
github 收录
Vehicle Energy Dataset (VED)
Vehicle Energy Dataset (VED)是由密歇根大学创建的一个大规模数据集,包含从2017年11月至2018年11月期间,在美国密歇根州安娜堡收集的383辆个人汽车的燃油和能量数据。该数据集捕捉了车辆的GPS轨迹以及燃油、能量、速度和辅助电源使用的时间序列数据。数据集中的车辆类型多样,包括264辆汽油车、92辆混合动力车和27辆插电式混合动力/电动车。VED数据集总里程约374,000英里,涵盖了从高速公路到交通密集的市中心区域等各种驾驶条件和季节。数据集创建过程中,研究团队通过安装在车辆上的OBD-II记录器收集数据,并对个人身份信息进行了去标识化处理,以保护参与者隐私。VED数据集的应用领域广泛,包括车辆能源消耗建模、驾驶员行为建模、机器学习和深度学习、交通模拟器的校准、最佳路线选择模型、人类驾驶员行为预测以及自动驾驶汽车的决策制定等。
arXiv 收录
RFUAV
RFUAV数据集是由浙江科技大学信息科学与工程学院开发的高质量原始射频数据集,包含37种不同无人机的约1.3 TB原始频率数据。该数据集旨在解决现有无人机检测数据集类型单一、数据量不足、信号-to-噪声比(SNR)范围有限等问题,提供了丰富的SNR级别和用于特征提取的基准预处理方法及模型评估工具。数据集适用于射频无人机检测和识别,有助于推动相关技术的研究与应用。
arXiv 收录
