基于计算机耳机历史销量预测下月销量数据|销量预测数据集|库存管理数据集
收藏
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
Global Water Quality Dataset
该数据集包含了全球多个地区的水质监测数据,涵盖了多种水质参数,如pH值、溶解氧、电导率、温度等。数据集旨在帮助研究人员和政策制定者了解全球水质的现状和变化趋势。
www.kaggle.com 收录
MME-RealWorld
MME-RealWorld是一个精心设计的基准,旨在解决现实世界应用中的实际问题。该数据集包含13,366张高分辨率图像,平均分辨率为2,000 × 1,500像素,涵盖29,429个由25名众包工作者和7名MLLM专家精心制作的注释,涉及43个任务。数据集的主要优势包括:1) 数据规模:由32名志愿者手动注释的29,429个QA对,是目前已知的最大全人工注释基准。2) 数据质量:高分辨率图像和人工完成的注释,确保了数据质量。3) 任务难度和实际应用价值:即使是最高级的模型,准确率也未超过60%,许多现实世界的任务比传统基准更难。4) 中文版本MME-RealWord-CN:针对中文场景收集的图像和注释,解决了英文版本翻译可能存在的问题。
huggingface 收录