words-monkeytype

Hugging Face2026-03-26 更新2026-03-27 收录

下载链接：

https://huggingface.co/datasets/much1na/words-monkeytype

下载链接

链接失效反馈

官方服务：

资源简介：

monkeytype-words 是一个多语言词汇数据集，主要用于打字练习和键盘输入测试。数据集包含三大类内容：1) 英语词汇（含常用词、医学词汇、莎士比亚词汇等子集）；2) 编程语言关键词（涵盖 ABAP、C++、Python 等 50+ 编程语言）；3) 其他语言词汇（包括西班牙语、法语、中文简繁体等 100+ 语言变体）。数据集通过 GitHub 自动更新，采用 GPL-3.0 许可证。各子集规模差异较大，最小子集仅含 9 个词（code_ook），最大子集包含 646,584 个词（spanish_650k）。该数据集特别适合用于打字速度测试软件、输入法优化以及多语言文本处理任务。

创建时间：

2026-03-23

原始信息汇总

数据集概述

基本信息

数据集名称: monkeytype-words
许可证: gpl-3.0
语言: 多语言 (multilingual)
数据来源: 自动更新自 monkeytypegame/monkeytype
代码仓库: ianmuchina/words-monkeytype
数据地址: much1na/words-monkeytype

数据统计

数据集包含多个类别和子集，每个子集有其对应的词汇数量。

英语 (english)

名称	词汇数量
english_450k	451435
english_25k	24141
english_10k	9944
english_5k	5000
english_commonly_misspelled	1729
english_1k	1000
wordle_1k	1000
english_medical	580
english_doubleletter	202
wordle	201
english	200
english_old	200
english_shakespearean	193
english_contractions	183

代码 (code)

名称	词汇数量
code_abap	200
code_abap_1k	1111
code_arduino	104
code_assembly	81
code_bash	276
code_brainfck	194
code_c	200
code_c++	111
code_clojure	212
code_cobol	105
code_common_lisp	978
code_csharp	130
code_css	72
code_cuda	237
code_dart	73
code_elixir	554
code_erlang	245
code_fortran	200
code_fsharp	102
code_gdscript	103
code_gdscript_2	102
code_gleam	442
code_go	63
code_haskell	208
code_html	232
code_java	89
code_javascript	126
code_javascript_1k	1001
code_javascript_react	202
code_jule	59
code_julia	103
code_kotlin	85
code_latex	200
code_lua	59
code_luau	73
code_matlab	63
code_nim	99
code_nix	125
code_ocaml	495
code_odin	129
code_ook	9
code_opencl	221
code_pascal	151
code_perl	234
code_php	296
code_powershell	106
code_python	174
code_python_1k	1096
code_python_2k	2060
code_python_5k	5235
code_r	21
code_r_2k	2270
code_rockstar	103
code_ruby	118
code_rust	192
code_scala	96
code_sql	174
code_swift	69
code_systemverilog	222
code_typescript	198
code_typst	43
code_v	64
code_vim	167
code_vimscript	85
code_visual_basic	180
code_yoptascript	239
code_zig	146

其他语言 (other)

包含多种语言的词汇列表，例如西班牙语、法语、挪威语、葡萄牙语、俄语、意大利语、德语、罗马尼亚语、波兰语、白俄罗斯语、乌兹别克语、马其顿语、泰语、中文（简体和繁体）、乌克兰语、世界语、希腊语、波斯语、印尼语、希伯来语、卡拜尔语、奥克语、塞尔维亚语、鞑靼语、荷兰语、斯洛伐克语、芬兰语、孟加拉语、捷克语、丹麦语、阿拉伯语、蒙古语、土耳其语、阿姆哈拉语、奥罗莫语、越南语、乌尔都语、斯洛文尼亚语、库尔德语、波斯尼亚语、立陶宛语、科萨语、匈牙利语、瑞士德语、克罗地亚语、保加利亚语、古吉拉特语、克林贡语、斯洛伐克语、阿非利卡语、亚美尼亚语、加泰罗尼亚语、荷兰语、爱沙尼亚语、菲律宾语、夏威夷语、冰岛语、爱尔兰语、马来语、尼泊尔语、挪威语、奥克语、波斯语、葡萄牙语、罗马尼亚语、瑞士德语、鞑靼语、泰语、乌克兰语、越南语、威尔士语、印地语、西班牙语、白俄罗斯语、俄语、瑞典语、希腊语、哈萨克语、立陶宛语、阿塞拜疆语、德语、日语罗马字、韩语、马尔加什语、毛利语、泰语、丹麦语、泰米尔语、乌尔都语、拉脱维亚语、马耳他语、弗里斯兰语、马其顿语、泰卢固语、捷克语、阿尔巴尼亚语、俄语缩写、科萨语、吉尔吉斯语、豪萨语、乌兹别克语、斯瓦希里语、绍纳语、约鲁巴语、逻辑语、拼音、日语平假名、韩语、泰米尔语旧体、英雄联盟、尼泊尔语罗马化、基尼亚卢旺达语、泰米尔语、拉丁语、日语片假名、奥罗莫语、高棉语、越南语、印尼语、斯洛文尼亚语、土耳其语、藏语、阿姆哈拉语、坦格利什、罗马尼亚语、瑞典语变音符号、桑塔利语、梵语、梵语罗马化、挪威尼诺斯克语、俄语缩写、吉尔吉斯语、阿拉伯语摩洛哥方言、马来语、维奥萨语、保加利亚语、古吉拉特语、冰岛语、鞑靼语克里米亚方言、鞑靼语克里米亚西里尔字母、保加利亚语拉丁字母、克罗地亚语、兴格利什、塞尔维亚语、塞尔维亚语拉丁字母、乌德穆尔特语、阿拉伯语埃及方言、维奥萨语、希腊语、希腊语拉丁字母、巴什基尔语、芬兰语、库尔德语中部方言、瑞士德语、哈萨克语、克林贡语、马拉地语、葡萄牙语、鞑靼语、泰卢固语、Twitch表情、乌尔都语、亚美尼亚语、亚美尼亚语西部方言、白俄罗斯语、白俄罗斯语拉丁字母、加泰罗尼亚语、中文简体、中文繁体、世界语、世界语H系统、世界语X系统、爱沙尼亚语、菲律宾语、弗里斯兰语、弗留利语、加利西亚语、格鲁吉亚语、德语、豪萨语、夏威夷语、印地语、匈牙利语、粤拼、卡拜尔语、卡纳达语、马拉雅拉姆语、缅甸语、尼泊尔语、挪威博克马尔语、奥克语、俄语、俄语缩写、绍纳语、僧伽罗语、乌尔都语、威尔士语、意第绪语、阿拉伯语、阿塞拜疆语、孟加拉语、捷克语、荷兰语、巴斯克语、意大利语、立陶宛语、乌克兰语、乌克兰语拉丁字母、希伯来语、瑞典语、马尔加什语、猪拉丁语、西班牙语、丹麦语、波斯语、乌兹别克语、阿尔巴尼亚语、波斯语罗马化、普什图语、托克皮纳语ku lili、波斯尼亚语、Lorem Ipsum、爱尔兰语、马耳他语、波兰语、阿非利卡语、拉脱维亚语、斯洛伐克语、拼音、法语、祖鲁语、马其顿语、日语罗马字、法语bitoduc、托克皮纳语ku suli、托克皮纳语、乌克兰语等。每个子集均有对应的词汇数量，具体数值详见原始数据表。

搜集汇总

数据集介绍

构建方式

在打字速度测试领域，words-monkeytype数据集通过自动化流程从开源项目MonkeyType的语料库中提取并整合而成。该数据集依托GitHub仓库的持续更新机制，定期同步前端语言文件，确保了内容的时效性和多样性。构建过程中，原始文本经过清洗与分类，形成了涵盖英语、编程语言及多国语言的词汇集合，每个子集均标注了精确的词汇数量，为后续研究提供了结构化的数据基础。

使用方法

研究人员和开发者可通过HuggingFace平台直接加载该数据集，利用其结构化格式进行打字速度算法的训练与评估。在自然语言处理领域，这些词汇列表可用于构建打字预测模型或测试输入法的效率。对于教育应用，数据集中的分级词汇库能辅助设计打字练习课程，帮助用户逐步提升打字技能。同时，编程语言子集可用于代码补全工具的研发，优化开发者的编码体验。

背景与挑战

背景概述

在自然语言处理与打字速度测试领域，词汇数据集扮演着基础性角色，为键盘输入性能评估与语言模型训练提供关键资源。words-monkeytype数据集源自开源打字练习平台MonkeyType，由社区贡献者Ian Muchina等人维护，其核心研究问题在于构建一个覆盖多语言、多领域的标准化词汇库，以支持精准的打字速度与准确率测量。该数据集自创建以来，持续从GitHub仓库自动更新，涵盖了从英语、西班牙语到编程语言代码片段等广泛内容，对提升打字测试工具的泛化能力与跨语言适应性具有显著影响力。

当前挑战

该数据集旨在解决打字速度测试中词汇覆盖不足与领域特异性缺失的挑战，其构建过程面临多重困难。在领域问题方面，需确保词汇的多样性与代表性，以准确反映不同语言与专业领域（如医疗、编程）的输入特征；同时，数据集中包含大量非拉丁字符语言（如中文、阿拉伯语）与编程代码，对词汇标准化与分词处理提出更高要求。在构建过程中，挑战主要源于多语言数据的收集与清洗，包括处理拼写变体、方言差异以及代码语法的特殊性，还需维持数据的时效性与规模平衡，避免引入噪声或过时内容。

常用场景

经典使用场景

在打字速度与准确性评估领域，words-monkeytype数据集以其多语言、多领域的词汇集合，为打字练习和测试提供了标准化的文本素材。该数据集涵盖了从英语、西班牙语到编程语言代码片段等广泛内容，使得用户能够在模拟真实场景下进行打字训练，尤其适用于在线打字竞赛平台和打字教育工具的开发。其词汇列表经过精心筛选，既包含常用词汇，也纳入专业术语，确保了训练材料的多样性和实用性。

解决学术问题

该数据集解决了人机交互研究中打字行为建模与性能评估的关键问题。通过提供大规模、结构化的多语言词汇数据，研究人员能够深入分析打字速度、错误率与语言特性之间的关联，为键盘布局优化、输入法设计以及认知负荷研究提供实证基础。其丰富的语言覆盖范围还促进了跨语言打字模式的比较研究，推动了人机交互领域的理论发展和技术创新。

实际应用

在实际应用中，words-monkeytype数据集被广泛集成到在线打字平台、语言学习软件以及职业培训系统中。例如，在编程教育中，开发者利用其代码词汇子集来训练程序员的打字熟练度；在多语言学习环境中，教育机构借助该数据集设计打字练习课程，帮助学习者提升外语输入效率。此外，企业人力资源部门也可将其用于招聘过程中的打字技能测试，确保员工具备必要的信息处理能力。

数据集最近研究