Modeling Typing Performance

github2025-02-08 更新2025-02-21 收录

下载链接：

https://github.com/AbhinavChaitanya01/Modeling-Typing-Performance

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了22名用户在monkeytype平台上进行的15003次打字测试的数据。数据集提供了分析打字性能模式的机会，特别是在在线打字测试的背景下。

This dataset encompasses 15,003 typing tests conducted by 22 users on the monkeytype platform. It offers opportunities for analyzing typing performance patterns, particularly within the context of online typing assessments.

创建时间：

2025-02-08

原始信息汇总

数据集概述

基本信息

数据集名称: Modeling Typing Performance: Insights from a Novel Dataset and Minimal Attributes
数据来源: Monkeytype打字测试平台
数据量: 15,003条测试记录
用户数量: 22名独特用户
维度: 15,003 x 24
内存占用: 约2.2MB

数据集描述

收集方式: 通过Google Form在打字社区和大学中收集，参与者从Monkeytype仪表板下载性能数据并提交CSV文件。
研究目的: 分析影响打字速度的关键特征，并使用多种机器学习算法和神经网络模型进行预测。

数据字段说明

属性	描述
`_id`	整个测试的唯一标识符。
`isPb`	表示会话是否达到个人最佳（true/false）。
`wpm`	正确打字的字符数（包括空格），除以5并归一化到60秒。
`acc`	正确按键的百分比。
`rawWpm`	类似`wpm`，但包括错误的单词。
`consistency`	基于原始WPM的方差，接近100%表示更好。
`charStats`	正确、错误、额外和遗漏的字符数（用分号分隔）。
`mode`	使用的打字模式（`time`、`words`、`quote`、`zen`和`custom`）。
`mode2`	子模式或额外的打字配置。
`quoteLength`	会话中使用的引用或文本的长度。
`restartCount`	测试成功完成前重启的次数。
`testDuration`	打字测试的总持续时间。
`afkDuration`	测试期间空闲的时间（离开键盘）。
`incompleteTestSeconds`	完成测试前在不完整测试中花费的时间。
`punctuation`	表示打字会话中是否包含标点符号（true/false）。
`numbers`	表示打字会话中是否包含数字（true/false）。
`language`	会话中使用的文本语言（默认为英语）。
`funbox`	表示是否使用了funbox模式（例如自定义单词列表）。
`difficulty`	打字会话的难度级别（默认为`normal`）。
`lazyMode`	表示是否启用了懒惰模式（宽松的打字规则，true/false）。
`blindMode`	表示是否启用了盲模式（隐藏键入的文本，true/false）。
`bailedOut`	表示用户是否提前退出测试（true/false）。
`tags`	与会话关联的标签或标签。
`timestamp`	会话发生的日期和时间。

预测模型

模型类型

线性回归和基于树的模型: Random Forest、Decision Tree、Extra Trees、Gradient Boosting。
其他模型: AdaBoost、ExtraTrees、CatBoost和Support Vector Regressor。
神经网络模型: 包含输入层、隐藏层、残差连接和输出层。
堆叠模型: 结合神经网络和传统集成模型的预测，使用Ridge回归作为元模型。

性能评估

模型名称	MAE	MSE	R2 Score
Linear Regression	32.2297	1899.7069	0.3981
Random Forest	12.9775	433.7010	0.8626
Decision Tree	17.4141	786.3706	0.7508
Support Vector Regressor	25.6303	1487.2555	0.5382
XGBoost	12.9609	446.4729	0.8585
LightGBM	12.9294	415.6362	0.8683
AdaBoostRegressor	25.7134	976.8982	0.6905
ExtraTreesRegressor	12.6264	410.1149	0.8700
CatBoostRegressor	12.8536	404.0528	0.8720
Gradient Boosting Regressor	12.9192	412.9704	0.8691
Stacking Model	12.4984	393.2045	0.8754
Hybrid Model	12.3775	391.3187	0.8760

贡献者

Aman Gupta
Abhinav Chaitanya

搜集汇总

数据集介绍

构建方式

本数据集的构建基于对monkeytype平台上22位用户所完成的15,003次打字测试的收集与分析，旨在探究影响打字表现的各种因素，尤其是针对在线打字测试的参与者。数据收集过程通过在打字社区和大学圈子中分发Google表单，邀请参与者下载并提交他们在Monkeytype上的打字表现数据，从而形成了这一独特的打字表现模式分析资源。

特点

该数据集的特点在于其涵盖了丰富的打字行为特征，如个人最佳成绩、打字速度、准确率、一致性等，以及测试模式、难度级别、是否使用特殊模式等信息。这些特征为研究打字表现提供了多角度的分析基础，有助于揭示打字速度与准确性之间的权衡关系，并为打字性能的预测提供了可能。

使用方法

使用该数据集时，用户可依据数据集中的特征，进行打字性能的预测模型构建。研究已探索了线性回归、随机森林、决策树等多种机器学习算法以及神经网络模型，并通过对模型性能的评价，为用户提供了模型选择的参考。用户可通过调整模型参数，进一步优化模型性能，以实现更准确的打字速度预测。

背景与挑战

背景概述

在信息时代背景下，打字技能对于日常生活和工作至关重要。Modeling Typing Performance数据集由研究人员在monkeytype平台上收集的15,003次打字测试数据构成，旨在分析影响打字表现的各种因素，如用户行为模式、键盘人体工程学以及认知因素对打字速度的影响。该数据集不仅提供了对打字表现模式的分析机会，而且通过机器学习算法对预测打字速度的关键特征进行了探究，其研究成果对用户身份验证、打字训练等领域产生了重要影响。

当前挑战

该数据集在构建过程中所面临的挑战主要包括数据的多样性和真实性收集，以及如何准确量化打字表现中的速度和准确性。研究者在分析打字表现模式时，需要克服不同用户间的个体差异、打字模式多样性以及打字环境变化等因素的影响。此外，在构建预测模型时，如何选择和优化模型结构以及处理数据不平衡和过拟合问题，也是研究中的关键挑战。

常用场景

经典使用场景

在当前信息化时代，打字技能的重要性日益凸显。该数据集提供了一个独特的视角，分析参与者在在线打字测试中的表现，特别是针对打字速度和准确性的关键特征。经典使用场景包括通过机器学习模型预测打字速度（WPM），探究不同打字模式、难度设置以及用户行为对打字表现的影响。

实际应用

实际应用场景中，该数据集可用于开发打字训练软件，以帮助用户提升打字速度和准确性。此外，它还可用于用户行为分析，例如在键盘设计、用户界面优化以及教育领域中辅助提高打字教学效果。

衍生相关工作

基于该数据集，衍生出的相关工作包括深入分析打字行为与认知因素（如记忆力、疲劳、注意力）的关系，以及开发更精确的打字表现预测模型。这些研究进一步拓展了数据集的应用范围，为打字相关领域的研究提供了宝贵资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集