Daily and Sports Activities|体育活动数据数据集|机器学习数据集
收藏数据集概述
数据集名称
- 名称: sports_activities_dataset
- 来源: UCI ML repository
- 链接: Daily and Sports Activities
数据集文件
- 主要文件: csir_cdri_test.ipynb
- 辅助文件: prediction-pca.ipynb, pytorch-model.ipynb
数据预处理
- 输入: 5秒窗口的病人活动数据,包含125个观测值,每个观测值有45个特征。
- 处理步骤:
- 第一步骤: 225个特征,包括9个传感器轴的5个单位的最小值、最大值、平均值、偏度和峰度。
- 第二步骤: 225个特征,表示9个传感器轴的5个单位的DFT最大5峰值。
- 第三步骤: 225个特征,表示与第二步骤中峰值对应的频率。
- 第四步骤: 495个特征,表示时间序列的11个自选自相关值。
- 输出: 1170个特征,每个特征文件经过归一化处理,范围为[0,1],并附带病人ID和活动ID。
数据集应用
- 模型测试: 包括两个部分,一个使用9120 x 1170矩阵,另一个使用9120 x 30矩阵。
- PCA应用: 对初始矩阵进行PCA处理,但未达到预期效果。
模型性能
实际数据集 (9120 x 1172)
- 活动预测:
- 最佳模型: Gradient Boosting Classifier, 准确率: 0.9368
- 其他模型: Bagging Classifier, Random Forest Classifier, ExtraTrees Classifier, Decision Tree
- 病人与活动预测:
- 最佳模型: Bagging Classifier, 准确率: 0.8245
- 其他模型: Gradient Boosting Classifier, Random Forest Classifier, Decision Tree, kNN (k=3)
PCA数据集 (9120 x 32)
- 活动预测:
- 最佳模型: ExtraTrees Classifier, 准确率: 0.8767
- 其他模型: Gradient Boosting Classifier, Random Forest Classifier, Bagging Classifier, Neural Networks (DNN)
- 神经网络 (PyTorch):
- 最佳模型: With Adam Optimizer, 准确率: 0.8951
- 其他模型: With Adam Optimizer + Karpathy constant, With RMSProp optimizer, With SGD Optimizer
- 神经网络 (scikit-learn):
- 最佳模型: MLP with Adam + ReLU, 准确率: 0.8065
- 其他模型: MLP with Adam + Sigmoid
额外任务 (PyTorch on PCA dataset)
- 模型: With RMSProp optimizer, 准确率: 0.5043

YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录