aai530-group6/pmdata|体育数据分析数据集|健康监测数据集
收藏PMData 数据集
数据集概述
PMData 数据集旨在结合传统的生命日志和体育活动日志。该数据集支持开发多种有趣的分析应用,例如,可以使用额外的体育数据来预测和分析日常发展,如个人的体重和睡眠模式,以及在体育环境中使用传统的生命日志数据来预测运动员的表现。数据集使用了 Fitbit Versa 2 智能手表腕带、PMSys 体育日志应用和 Google 表单进行数据收集,包含了 16 名参与者 5 个月的数据。初步实验表明,这些分析是可能的,但仍有很大的改进空间。
数据集结构
数据集的主文件夹结构如下:
text [主文件夹] ├── p01 ├── p02 ├── ... ├── p16 └── participant-overview.xlsx
每个参与者的文件夹(pXX)包含以下内容:
-
fitbit
[文件夹]calories.json
:显示上一分钟燃烧的卡路里数量。distance.json
:每分钟移动的距离,单位为厘米。exercise.json
:详细描述每次活动,包含日期、开始和结束时间、不同活动水平的时间、活动类型和各种性能指标(根据活动类型不同而异)。heart_rate.json
:在给定时间的心跳次数(每分钟)。lightly_active_minutes.json
:汇总每天的轻度活动分钟数。moderately_active_minutes.json
:汇总每天的中度活动分钟数。resting_heart_rate.json
:每天的静息心率。sedentary_minutes.json
:汇总每天的静坐分钟数。sleep_score.csv
:帮助理解每晚的睡眠情况,包含一个0-100的总体评分,由组成、恢复和持续时间评分、深度睡眠分钟数、静息心率和不安分评分组成。sleep.json
:每次睡眠的分解,包括浅睡、深度睡眠、REM睡眠和清醒时间。steps.json
:每分钟的步数。time_in_heart_rate_zones.json
:不同心率区间的分钟数。very_active_minutes.json
:汇总每天的高度活动分钟数。
-
googledocs
[文件夹]reporting.csv
:每条记录包含报告日期、提交时间、餐食(早餐、午餐、晚餐和晚餐)、当天体重、饮水杯数和是否饮酒。
-
pmsys
[文件夹]injury.csv
:显示受伤的时间和日期、受伤部位和轻微及严重程度。srpe.csv
:包含训练会话的结束时间、活动类型、感知努力(RPE)和持续时间(分钟)。wellness.csv
:包含时间、日期、疲劳、情绪、准备情况、睡眠时长、睡眠质量、酸痛(及酸痛部位)和压力。
-
food-images.zip
:参与者1、3和5在2个月(2月和3月)内拍摄的所有食物(除水外)的照片。照片包含在.zip文件中,图像头部包含日期和时间信息。
使用条款
PMData 数据集的许可证为 Attribution-NonCommercial 4.0 International。更多信息请参见:https://creativecommons.org/licenses/by-nc/4.0/legalcode
引用
bibtex @inproceedings{10.1145/3339825.3394926, address = {New York, NY, USA}, author = {Thambawita, Vajira and Hicks, Steven Alexander and Borgli, Hanna and Stensland, H {a}kon Kvale and Jha, Debesh and Svensen, Martin Kristoffer and Pettersen, Svein-Arne and Johansen, Dag and Johansen, H {a}vard Dagenborg and Pettersen, Susann Dahl and Nordvang, Simon and Pedersen, Sigurd and Gjerdrum, Anders and Gro{}nli, Tor-Morten and Fredriksen, Per Morten and Eg, Ragnhild and Hansen, Kjeld and Fagernes, Siri and Claudi, Christine and Bio{}rn-Hansen, Andreas and Nguyen, Duc Tien Dang and Kupka, Tomas and Hammer, Hugo Lewi and Jain, Ramesh and Riegler, Michael Alexander and Halvorsen, P {a}l}, booktitle = {Proceedings of the 11th ACM Multimedia Systems Conference}, doi = {10.1145/3339825.3394926}, isbn = {9781450368452}, keywords = {sports logging, questionnaires, food pictures, neural networks, multimedia dataset, sensor data, machine learning}, location = {Istanbul, Turkey}, numpages = {6}, pages = {231-236}, publisher = {Association for Computing Machinery}, series = {MMSys 20}, title = {PMData: A Sports Logging Dataset}, url = {https://doi.org/10.1145/3339825.3394926}, year = {2020}, }

GAOKAO-Bench
GAOKAO-Bench是由复旦大学计算机科学与技术学院创建的数据集,涵盖了2010至2022年间中国高考的所有科目题目,共计2811题。该数据集包含1781道客观题和1030道主观题,题型多样,包括单选、填空、改错、开放性问题等。数据集通过自动化脚本和人工标注将PDF格式的题目转换为JSON文件,数学公式则转换为LATEX格式。GAOKAO-Bench旨在为大型语言模型提供一个全面且贴近实际应用的评估基准,特别是在解决中国高考相关问题上的表现。
arXiv 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
Plants of the World Online (POWO)
Plants of the World Online (POWO) 是一个全球植物数据库,提供了关于植物物种的详细信息,包括分类学、分布、生态学和保护状态等。该数据库旨在为植物学家、生态学家和公众提供一个全面的植物信息资源。
powo.science.kew.org 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
The Global Forest Watch (GFW)
The Global Forest Watch (GFW) 是一个全球森林监测平台,提供关于森林覆盖变化、火灾、森林砍伐和土地利用的实时数据和分析。数据集包括全球森林覆盖地图、森林砍伐警报、火灾热点、土地覆盖变化等信息。
globalforestwatch.org 收录