UCI Machine Learning Repository: Diabetes Data Set|糖尿病数据集|机器学习数据集
收藏
- UCI Machine Learning Repository首次发布Diabetes Data Set,该数据集包含768个样本,用于预测糖尿病的发病情况。
- Diabetes Data Set首次应用于机器学习研究,特别是在分类算法中,展示了其在医疗数据分析中的潜力。
- 随着数据挖掘技术的发展,Diabetes Data Set被广泛用于各种机器学习算法的性能评估和比较研究。
- Diabetes Data Set成为医疗数据分析和预测模型构建的标准基准数据集之一,推动了相关领域的研究进展。
- 尽管已有多年历史,Diabetes Data Set仍被频繁引用和使用,特别是在深度学习和人工智能领域,展示了其持久的影响力。
- 1Performance of Machine Learning Algorithms on the UCI Diabetes DatasetUniversity of California, Irvine · 2020年
- 2A Comparative Study of Machine Learning Algorithms for Diabetes Prediction Using UCI DatasetIEEE · 2019年
- 3Diabetes Prediction Using Machine Learning Techniques: A Comparative StudySpringer · 2021年
- 4Predicting Diabetes Mellitus with Machine Learning TechniquesElsevier · 2018年
- 5Machine Learning Approaches for Diabetes Prediction: A ReviewMDPI · 2022年
WEATHER-5K
WEATHER-5K是由香港科技大学上海人工智能实验室创建的大规模全球气象站数据集,包含来自5672个全球气象站的10年每小时气象数据。该数据集覆盖多种关键气象要素,旨在为全球站点气象预报(GSWF)提供一个可靠和可解释的资源,并作为评估现有预测模型的基准。WEATHER-5K不仅支持GSWF方法,还扩展到未来时间序列研究挑战和机会,通过广泛的时序预测基准测试,推动该领域的显著进步。
arXiv 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
AerialMegaDepth
AerialMegaDepth数据集是由卡内基梅隆大学研究者创建的,该数据集结合了伪合成渲染和真实地面图像,旨在推进从地面和空中视角的图像中学习几何重建和视图合成任务。数据集通过将3D城市级网格的伪合成渲染与来自MegaDepth的真实地面级图像在统一坐标系中注册,包含了137个地标和132,137个地理注册图像。该数据集在具有挑战性的地面-空中场景中,显著提高了基于学习的方法在多视图几何预测和新型视图合成任务上的性能。
arXiv 收录
NSL-KDD
NSL-KDD数据集是一个用于测试入侵检测算法的网络流量数据集。它是KDD Cup 1999数据集的改进版本,解决了原始数据集中的冗余记录和类别不平衡问题。该数据集包含训练和测试数据文件,以及包含数据集列名的文件。
github 收录
TruckV2X
TruckV2X数据集是首个以卡车为中心的多模态和多代理协作感知数据集,旨在解决卡车在自动驾驶中面临的独特感知挑战。该数据集利用LiDAR和摄像头进行多模态感知,并包括拖拉机、拖车、CAV和RSU等多代理协作。数据集提供了64个场景,包括88,396帧LiDAR点云、一百万张相机图像和1.18百万个3D边界框注释。该数据集为开发具有增强遮挡处理能力的协作感知系统奠定了基础,并加速了多代理自动驾驶卡车系统的部署。
arXiv 收录