olympics.csv|奥运会数据集|奖牌榜数据集
收藏Olympics Dataset - Case Study
数据集概述
- 来源: 该数据集源自维基百科上的“历届奥运会奖牌榜”。
- 文件格式: CSV文件(olympics.csv)。
数据处理任务
-
数据加载与清洗:
- 创建函数
load_data
以读取CSV文件并转换为数据框。 - 跳过首行。
- 重命名包含“01”、“02”和“03”的列名为“Gold”、“Silver”和“Bronze”。
- 分割国家名称和国家代码,并将国家名称设为数据框索引。
- 去除国家名称中的多余字符。
- 删除“Totals”列。
- 返回处理后的数据框。
- 创建函数
-
获取首个国家详情:
- 创建函数
first_country
。 - 返回首个国家的详细信息。
- 创建函数
-
获取夏季奥运会金牌最多的国家:
- 创建函数
gold_medal
。 - 返回获得最多金牌的国家的名称。
- 创建函数
-
获取夏季与冬季奥运会金牌数差异最大的国家:
- 创建函数
biggest_difference_in_gold_medal
。 - 返回夏季与冬季奥运会金牌数差异最大的国家的名称。
- 创建函数
-
添加“Points”列:
- 创建函数
get_points
。 - 根据金牌3分、银牌2分、铜牌1分的规则计算“Points”列,并返回包含此列的数据框。
- 创建函数
-
执行k-means聚类分析:
- 创建函数
k_means
。 - 返回聚类中心。
- 创建函数

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
中国逐日降水数据集(1961-2022,0.1°/0.25°/0.5°)
CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测,在传统的“降水背景场 + 降水比值场”的数据集构建思路上,尝试应用月值降水约束和地形特征校正,并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为,CHM_PRE可以较好的表征降水的空间变异性,其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78,均方根误差中位数为8.8 mm/d,KGE值中位数为0.69,与目前常用的降水数据集(CGDPA、CN05.1、CMA V2.0)有很好的一致性。 数据集的时间范围为1961年至今,空间分辨率为0.1°、0.25°和0.5°,经纬度范围为18°N–54°N, 72°E–136°E。
国家青藏高原科学数据中心 收录
UCF-Crime
UCF-犯罪数据集是128小时视频的新型大规模第一个数据集。它包含1900年长而未修剪的真实世界监控视频,其中包含13个现实异常,包括虐待,逮捕,纵火,殴打,道路交通事故,入室盗窃,爆炸,战斗,抢劫,射击,偷窃,入店行窃和故意破坏。之所以选择这些异常,是因为它们对公共安全有重大影响。这个数据集可以用于两个任务。首先,考虑一组中的所有异常和另一组中的所有正常活动的一般异常检测。第二,用于识别13个异常活动中的每一个。
OpenDataLab 收录
Internet Traffic Data (CAIDA)
该数据集包含了互联网流量的详细记录,包括IP地址、流量大小、时间戳等信息。数据主要用于网络流量分析和研究。
www.caida.org 收录