ZUEC-HOL - Coleção de Holothuroidea do Museu de Zoologia da UNICAMP|海参生物学数据集|动物学收藏数据集
收藏THCHS-30
“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”
OpenDataLab 收录
MRMR
MRMR是一个专家级的多学科多模态检索基准,包含1502个经过人类专家仔细验证的查询,涵盖了23个领域。与之前的基准相比,MRMR在三个关键方面取得了进步:首先,它挑战了跨多个专业领域的检索系统,能够在不同领域之间进行细粒度的模型比较;其次,查询是推理密集型的,需要更深入地解释图像,例如诊断显微镜幻灯片;此外,还引入了矛盾检索这一新型任务,要求模型识别冲突的概念。与仅限于单个图像或单模态文档的早期基准不同,MRMR提供了一个具有多图像查询和混合模态语料库文档的现实场景。
arXiv 收录
OECD Statistics
OECD Statistics 数据集包含了经济合作与发展组织(OECD)发布的各种统计数据,涵盖了经济、社会、环境、教育、科技等多个领域。数据集提供了详细的指标和时间序列数据,帮助研究人员和政策制定者分析和理解全球经济和社会发展趋势。
stats.oecd.org 收录
中国区域基础设施建设数据集
该数据集包含了中国各地区的基础设施建设相关数据,涵盖交通、能源、水利等多个领域。数据包括项目名称、投资金额、建设进度、地理位置等信息。
data.stats.gov.cn 收录
MIMII数据集
MIMII数据集是由日立有限公司研究与开发集团创建的,专注于工业机器异常声音检测的数据集。该数据集包含26,092个正常操作条件下的声音文件,涵盖阀门、泵、风扇和滑轨四种机器类型。数据集的创建过程中,使用了TAMAGO-03麦克风阵列进行声音采集,并在多个真实工厂环境中混合背景噪声以模拟实际环境。MIMII数据集主要用于机器学习和信号处理社区开发自动化设施维护系统,特别是在无监督学习场景下检测机器异常声音。
arXiv 收录
