Pokemon Dataset|Pokemon数据集|数据分析数据集
收藏数据集概述
数据集内容
- Num: 每个宝可梦的ID。
- Name: 每个宝可梦的名称。
- Type1: 宝可梦的类型,决定其弱点/抵抗力。
- Type2: 双类型宝可梦的第二类型。
- Total: 宝可梦的总属性。
- HP: 生命值,定义宝可梦能承受多少伤害。
- Attack: 基础普通攻击修正。
- Defense: 基础防御,抵抗普通攻击的伤害。
- SPAtk: 特殊攻击,基础特殊攻击修正。
分类方法
- 分类准确度: 正确分类的对象占总数量的比例。
- 混淆矩阵: 用于分类问题,展示四种预测结果:真阳性、真阴性、假阳性和假阴性。
- 分类报告: 显示精确度、召回率、F1分数和支持度。
- 精确度: 正确预测的正类占所有预测为正类的比例。
- 召回率: 正确预测的正类占所有实际正类的比例。
- F1分数: 精确度和召回率的加权调和平均。
模型构建
- 逻辑回归: 用于描述二元响应变量与预测变量间的关系。
- 决策树: 通过内部节点测试属性变量,分支表示测试结果,叶节点表示标签。
- 随机森林: 通过应用自助聚集和随机特征选择方法扩展CART方法。
- 朴素贝叶斯: 直接概率分类技术,使用贝叶斯定理和属性独立假设。
- KNN: 识别最相似的k个模式,并基于这些模式确定决策类别。
- SVM: 用于线性可分数据,寻找最佳超平面以最大化类间距离。

MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
微博与抖音评论数据集
数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。
github 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
Solar Radiation Data
该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。
www.nrel.gov 收录
MID-Ship
MID-Ship是一个用于复杂海上船舶导航行为的数据集,由上海海事大学创建,旨在解决船舶目标检测中的遮挡和密集交互问题。该数据集包含5673张图像,总计135,884个精细标注的目标实例,涵盖多种海上场景,如不同天气条件下的船舶相遇、靠泊操作、小目标聚集和部分遮挡等。数据集通过高分辨率视频片段采集,覆盖43个不同的可航水域,并包含多种天气和光照条件,增强了数据集的多样性和实用性。MID-Ship主要应用于智能海上交通监控系统和自主船舶导航,旨在提高复杂环境下的船舶检测和跟踪能力,减少海上事故。
arXiv 收录