JLPT Kanji Dictionary

github2025-05-02 更新2025-05-04 收录

下载链接：

https://github.com/AnchorI/jlpt-kanji-dictionary

下载链接

链接失效反馈

官方服务：

资源简介：

一个为日语学习者和开发者提供的结构化且丰富的数据集。该仓库提供了关于日语汉字字符和词汇的全面信息，涵盖JLPT N5到N1级别。

A structured and comprehensive dataset tailored for Japanese language learners and developers. This repository provides comprehensive information on Japanese kanji characters and vocabulary, covering all JLPT levels from N5 to N1.

创建时间：

2025-05-02

原始信息汇总

JLPT Kanji Dictionary 数据集概述

📌 数据集简介

数据集名称：JLPT Kanji Dictionary
目标用户：日语学习者和开发者
覆盖范围：日语汉字和词汇，涵盖JLPT等级N5至N1

📂 数据集内容

1. `jlpt-kanji.json`

包含字段：
- kanji: 汉字字符
- strokes: 笔画数
- radical_number: 部首索引
- frequency: 汉字使用频率排名（数值越低越常见）
- jlpt: JLPT等级（N5至N1）
- begins: 以此汉字开头的单词数量
- used_in: 包含此汉字的单词总数
- component_in: 此汉字作为组成部分的其他汉字数量
- description: 英文简要解释

2. `dictionary.json`

包含字段：
- kanji: 单词的汉字形式
- reading: 假名读音
- pos: 词性缩写（参见dictionary-tags.json）
- glossary_en: 英文释义及例句
- glossary_ru: 俄文翻译（可选）
- sequence: 使用频率（数值越高越常见；负数为罕见词）

3. `dictionary-tags.json`

功能：解码dictionary.json中的词性缩写

🧩 应用场景

语言学习应用
语言学研究
JLPT备考工具
汉字/词汇搜索引擎
教育类游戏
导入Elasticsearch、SQLite等数据库

🔧 数据示例

json { "kanji": "加担", "reading": "かたん", "pos": "n vs vi", "glossary_en": [ "support", "participation", "assistance", "complicity", "conspiracy" ], "glossary_ru": [ "1) помощь; поддержка; участие (в чём-л.)", "2) сговор; соучастие" ], "sequence": 1590450 }

搜集汇总

数据集介绍

构建方式

JLPT Kanji Dictionary数据集通过系统化整理日本语能力测试（JLPT）N5至N1级别的汉字与词汇构建而成。数据来源权威可靠，涵盖每个汉字的笔画数、部首编号、使用频率等核心属性，并标注其在词汇中的出现位置与构字能力。词汇部分采用多维度标注体系，包含假名读音、词性缩写、双语释义及使用频率排序，通过严格的交叉验证确保数据准确性。

特点

该数据集以层次化结构呈现日语学习核心要素，其突出特点在于深度整合汉字与词汇的关联属性。每个汉字条目不仅包含基础信息，更创新性地统计了该字在词首出现频次、参与构词数量等衍生数据。词汇库采用机器可读的JSON格式，支持多语言释义对照，频率标记为词汇分级教学提供量化依据，词性标注体系经过标准化处理便于程序解析。

使用方法

开发者可通过解析JSON文件直接集成至语言学习应用，利用频率字段实现渐进式教学内容排序。研究人员可基于汉字构字关系构建知识图谱，或通过词性标注开展语法分析。教育工作者可依据JLPT级别字段筛选目标词汇，结合双语释义开发教学材料。数据集兼容主流数据库系统，支持Elasticsearch等搜索引擎的快速部署，其模块化设计允许按需加载特定级别的数据子集。

背景与挑战

背景概述

JLPT Kanji Dictionary数据集是为日语学习者和开发者设计的结构化资源，专注于日本语能力测试（JLPT）N5至N1级别的汉字和词汇。该数据集由开源社区维护，旨在提供详尽的汉字特征和词汇信息，包括笔画数、部首索引、使用频率及多语言释义等。其创建源于对标准化日语学习资源的需求，填补了传统教材在动态更新和机器可读性方面的不足。通过整合语言学特征与实用数据，该数据集已成为语言学习应用、教育软件及学术研究的重要基础。

当前挑战

该数据集面临的挑战主要体现在两方面：领域问题上，日语汉字的多音字、同形异义现象增加了语义消歧的难度，而词汇的语境依赖性对机器翻译和自动标注模型提出了更高要求；构建过程中，数据来源的权威性与一致性需严格验证，跨语言释义的精确性依赖专业语言学知识，且动态维护高频词汇库需持续跟踪实际语用变化。此外，平衡不同JLPT等级覆盖广度与深度，亦是优化数据集实用性的关键。

常用场景

经典使用场景

在日语学习领域，JLPT Kanji Dictionary数据集为学习者提供了系统化的汉字和词汇资源。通过整合N5至N1级别的JLPT考试内容，该数据集成为语言学习应用和教材开发的核心参考，帮助用户精准掌握不同难度层次的汉字书写、读音及用法。

衍生相关工作

基于该数据集衍生的经典研究包括《基于JLPT语料库的汉字习得顺序建模》，其提出的三级汉字教学法被多所大学采用。开源项目KanjiTracer利用其笔画数据开发了汉字书写动画生成工具，而跨语言团队则结合词性标注构建了日英俄三语平行语料库。

数据集最近研究