five

words-monkeytype

收藏
Hugging Face2026-03-26 更新2026-03-27 收录
下载链接:
https://huggingface.co/datasets/much1na/words-monkeytype
下载链接
链接失效反馈
官方服务:
资源简介:
monkeytype-words 是一个多语言词汇数据集,主要用于打字练习和键盘输入测试。数据集包含三大类内容:1) 英语词汇(含常用词、医学词汇、莎士比亚词汇等子集);2) 编程语言关键词(涵盖 ABAP、C++、Python 等 50+ 编程语言);3) 其他语言词汇(包括西班牙语、法语、中文简繁体等 100+ 语言变体)。数据集通过 GitHub 自动更新,采用 GPL-3.0 许可证。各子集规模差异较大,最小子集仅含 9 个词(code_ook),最大子集包含 646,584 个词(spanish_650k)。该数据集特别适合用于打字速度测试软件、输入法优化以及多语言文本处理任务。
创建时间:
2026-03-23
原始信息汇总

数据集概述

基本信息

数据统计

数据集包含多个类别和子集,每个子集有其对应的词汇数量。

英语 (english)

名称 词汇数量
english_450k 451435
english_25k 24141
english_10k 9944
english_5k 5000
english_commonly_misspelled 1729
english_1k 1000
wordle_1k 1000
english_medical 580
english_doubleletter 202
wordle 201
english 200
english_old 200
english_shakespearean 193
english_contractions 183

代码 (code)

名称 词汇数量
code_abap 200
code_abap_1k 1111
code_arduino 104
code_assembly 81
code_bash 276
code_brainfck 194
code_c 200
code_c++ 111
code_clojure 212
code_cobol 105
code_common_lisp 978
code_csharp 130
code_css 72
code_cuda 237
code_dart 73
code_elixir 554
code_erlang 245
code_fortran 200
code_fsharp 102
code_gdscript 103
code_gdscript_2 102
code_gleam 442
code_go 63
code_haskell 208
code_html 232
code_java 89
code_javascript 126
code_javascript_1k 1001
code_javascript_react 202
code_jule 59
code_julia 103
code_kotlin 85
code_latex 200
code_lua 59
code_luau 73
code_matlab 63
code_nim 99
code_nix 125
code_ocaml 495
code_odin 129
code_ook 9
code_opencl 221
code_pascal 151
code_perl 234
code_php 296
code_powershell 106
code_python 174
code_python_1k 1096
code_python_2k 2060
code_python_5k 5235
code_r 21
code_r_2k 2270
code_rockstar 103
code_ruby 118
code_rust 192
code_scala 96
code_sql 174
code_swift 69
code_systemverilog 222
code_typescript 198
code_typst 43
code_v 64
code_vim 167
code_vimscript 85
code_visual_basic 180
code_yoptascript 239
code_zig 146

其他语言 (other)

包含多种语言的词汇列表,例如西班牙语、法语、挪威语、葡萄牙语、俄语、意大利语、德语、罗马尼亚语、波兰语、白俄罗斯语、乌兹别克语、马其顿语、泰语、中文(简体和繁体)、乌克兰语、世界语、希腊语、波斯语、印尼语、希伯来语、卡拜尔语、奥克语、塞尔维亚语、鞑靼语、荷兰语、斯洛伐克语、芬兰语、孟加拉语、捷克语、丹麦语、阿拉伯语、蒙古语、土耳其语、阿姆哈拉语、奥罗莫语、越南语、乌尔都语、斯洛文尼亚语、库尔德语、波斯尼亚语、立陶宛语、科萨语、匈牙利语、瑞士德语、克罗地亚语、保加利亚语、古吉拉特语、克林贡语、斯洛伐克语、阿非利卡语、亚美尼亚语、加泰罗尼亚语、荷兰语、爱沙尼亚语、菲律宾语、夏威夷语、冰岛语、爱尔兰语、马来语、尼泊尔语、挪威语、奥克语、波斯语、葡萄牙语、罗马尼亚语、瑞士德语、鞑靼语、泰语、乌克兰语、越南语、威尔士语、印地语、西班牙语、白俄罗斯语、俄语、瑞典语、希腊语、哈萨克语、立陶宛语、阿塞拜疆语、德语、日语罗马字、韩语、马尔加什语、毛利语、泰语、丹麦语、泰米尔语、乌尔都语、拉脱维亚语、马耳他语、弗里斯兰语、马其顿语、泰卢固语、捷克语、阿尔巴尼亚语、俄语缩写、科萨语、吉尔吉斯语、豪萨语、乌兹别克语、斯瓦希里语、绍纳语、约鲁巴语、逻辑语、拼音、日语平假名、韩语、泰米尔语旧体、英雄联盟、尼泊尔语罗马化、基尼亚卢旺达语、泰米尔语、拉丁语、日语片假名、奥罗莫语、高棉语、越南语、印尼语、斯洛文尼亚语、土耳其语、藏语、阿姆哈拉语、坦格利什、罗马尼亚语、瑞典语变音符号、桑塔利语、梵语、梵语罗马化、挪威尼诺斯克语、俄语缩写、吉尔吉斯语、阿拉伯语摩洛哥方言、马来语、维奥萨语、保加利亚语、古吉拉特语、冰岛语、鞑靼语克里米亚方言、鞑靼语克里米亚西里尔字母、保加利亚语拉丁字母、克罗地亚语、兴格利什、塞尔维亚语、塞尔维亚语拉丁字母、乌德穆尔特语、阿拉伯语埃及方言、维奥萨语、希腊语、希腊语拉丁字母、巴什基尔语、芬兰语、库尔德语中部方言、瑞士德语、哈萨克语、克林贡语、马拉地语、葡萄牙语、鞑靼语、泰卢固语、Twitch表情、乌尔都语、亚美尼亚语、亚美尼亚语西部方言、白俄罗斯语、白俄罗斯语拉丁字母、加泰罗尼亚语、中文简体、中文繁体、世界语、世界语H系统、世界语X系统、爱沙尼亚语、菲律宾语、弗里斯兰语、弗留利语、加利西亚语、格鲁吉亚语、德语、豪萨语、夏威夷语、印地语、匈牙利语、粤拼、卡拜尔语、卡纳达语、马拉雅拉姆语、缅甸语、尼泊尔语、挪威博克马尔语、奥克语、俄语、俄语缩写、绍纳语、僧伽罗语、乌尔都语、威尔士语、意第绪语、阿拉伯语、阿塞拜疆语、孟加拉语、捷克语、荷兰语、巴斯克语、意大利语、立陶宛语、乌克兰语、乌克兰语拉丁字母、希伯来语、瑞典语、马尔加什语、猪拉丁语、西班牙语、丹麦语、波斯语、乌兹别克语、阿尔巴尼亚语、波斯语罗马化、普什图语、托克皮纳语ku lili、波斯尼亚语、Lorem Ipsum、爱尔兰语、马耳他语、波兰语、阿非利卡语、拉脱维亚语、斯洛伐克语、拼音、法语、祖鲁语、马其顿语、日语罗马字、法语bitoduc、托克皮纳语ku suli、托克皮纳语、乌克兰语等。每个子集均有对应的词汇数量,具体数值详见原始数据表。

搜集汇总
数据集介绍
main_image_url
构建方式
在打字速度测试领域,words-monkeytype数据集通过自动化流程从开源项目MonkeyType的语料库中提取并整合而成。该数据集依托GitHub仓库的持续更新机制,定期同步前端语言文件,确保了内容的时效性和多样性。构建过程中,原始文本经过清洗与分类,形成了涵盖英语、编程语言及多国语言的词汇集合,每个子集均标注了精确的词汇数量,为后续研究提供了结构化的数据基础。
使用方法
研究人员和开发者可通过HuggingFace平台直接加载该数据集,利用其结构化格式进行打字速度算法的训练与评估。在自然语言处理领域,这些词汇列表可用于构建打字预测模型或测试输入法的效率。对于教育应用,数据集中的分级词汇库能辅助设计打字练习课程,帮助用户逐步提升打字技能。同时,编程语言子集可用于代码补全工具的研发,优化开发者的编码体验。
背景与挑战
背景概述
在自然语言处理与打字速度测试领域,词汇数据集扮演着基础性角色,为键盘输入性能评估与语言模型训练提供关键资源。words-monkeytype数据集源自开源打字练习平台MonkeyType,由社区贡献者Ian Muchina等人维护,其核心研究问题在于构建一个覆盖多语言、多领域的标准化词汇库,以支持精准的打字速度与准确率测量。该数据集自创建以来,持续从GitHub仓库自动更新,涵盖了从英语、西班牙语到编程语言代码片段等广泛内容,对提升打字测试工具的泛化能力与跨语言适应性具有显著影响力。
当前挑战
该数据集旨在解决打字速度测试中词汇覆盖不足与领域特异性缺失的挑战,其构建过程面临多重困难。在领域问题方面,需确保词汇的多样性与代表性,以准确反映不同语言与专业领域(如医疗、编程)的输入特征;同时,数据集中包含大量非拉丁字符语言(如中文、阿拉伯语)与编程代码,对词汇标准化与分词处理提出更高要求。在构建过程中,挑战主要源于多语言数据的收集与清洗,包括处理拼写变体、方言差异以及代码语法的特殊性,还需维持数据的时效性与规模平衡,避免引入噪声或过时内容。
常用场景
经典使用场景
在打字速度与准确性评估领域,words-monkeytype数据集以其多语言、多领域的词汇集合,为打字练习和测试提供了标准化的文本素材。该数据集涵盖了从英语、西班牙语到编程语言代码片段等广泛内容,使得用户能够在模拟真实场景下进行打字训练,尤其适用于在线打字竞赛平台和打字教育工具的开发。其词汇列表经过精心筛选,既包含常用词汇,也纳入专业术语,确保了训练材料的多样性和实用性。
解决学术问题
该数据集解决了人机交互研究中打字行为建模与性能评估的关键问题。通过提供大规模、结构化的多语言词汇数据,研究人员能够深入分析打字速度、错误率与语言特性之间的关联,为键盘布局优化、输入法设计以及认知负荷研究提供实证基础。其丰富的语言覆盖范围还促进了跨语言打字模式的比较研究,推动了人机交互领域的理论发展和技术创新。
实际应用
在实际应用中,words-monkeytype数据集被广泛集成到在线打字平台、语言学习软件以及职业培训系统中。例如,在编程教育中,开发者利用其代码词汇子集来训练程序员的打字熟练度;在多语言学习环境中,教育机构借助该数据集设计打字练习课程,帮助学习者提升外语输入效率。此外,企业人力资源部门也可将其用于招聘过程中的打字技能测试,确保员工具备必要的信息处理能力。
数据集最近研究
最新研究方向
在自然语言处理领域,多语言打字速度评估数据集正成为研究热点。words-monkeytype数据集以其覆盖英语、代码及多种自然语言的丰富词汇资源,为打字行为分析与键盘输入优化提供了重要基础。前沿研究聚焦于利用该数据集训练跨语言打字预测模型,探索不同语言结构对输入效率的影响,并应用于无障碍技术开发,以提升特殊人群的输入体验。同时,结合代码子集的研究助力编程教育工具的创新,通过分析代码片段输入模式,优化集成开发环境的自动补全与错误检测功能。这些方向不仅推动了人机交互技术的进步,也为多语言信息处理的实际应用开辟了新路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作