ISO 639-1 Language Codes |语言代码数据集|国际标准数据集
收藏AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
烟火数据集
烟火数据集是一个专门用于烟火识别和检测任务的数据集,旨在帮助研究人员开发更加精确和高效的烟火识别算法。包含了大量真实场景下的烟火视频数据,具有广泛的应用前景和重要的研究价值。
阿里云天池 收录
Office-31, Office-Home, VisDA-2017, DomainNet
Office-31是一个包含31个类别的办公用品图像数据集,Office-Home包含65个类别的日常用品图像数据集,VisDA-2017是一个用于视觉领域自适应挑战的数据集,DomainNet是一个大规模的多领域图像数据集。
github 收录
红外谱图数据库
收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。
国家基础学科公共科学数据中心 收录