Japanese Language Data
收藏github2026-04-14 更新2026-04-23 收录
下载链接:
https://github.com/jkindrix/japanese-language-data
下载链接
链接失效反馈官方服务:
资源简介:
一个统一的、交叉链接的、可重复使用的、开放许可的日语学习数据集。整合了JMdict、KANJIDIC2、KanjiVG、Tatoeba、Kanjium、Waller JLPT和Wikipedia Kangxi radicals等最佳开放日语资源,通过条目级别的交叉链接,验证了所有内容与显式模式的一致性,并从固定的上游版本可重复构建。目标是提供一个支持学习、阅读、解析和日语的完整数据集,足够完整以独立使用,足够现代以值得采用,足够开放以便任何人都可以使用、检查、修改或贡献。
A unified, cross-linked, reproducible, and open-licensed Japanese language learning dataset. It integrates the leading open Japanese language resources including JMdict, KANJIDIC2, KanjiVG, Tatoeba, Kanjium, Waller JLPT, and Wikipedia Kangxi radicals. All content is validated for consistency against explicit schemas via entry-level cross-linking, and the dataset can be reproducibly built from fixed upstream versions. The dataset aims to provide a comprehensive resource supporting Japanese language learning, reading, parsing, and processing; it is sufficiently complete for standalone use, modern enough to be worthy of adoption, and open enough to allow anyone to use, inspect, modify, or contribute to it.
创建时间:
2026-04-11
原始信息汇总
Japanese Language Data 数据集概述
数据集简介
这是一个用于学习日语的统一、交叉链接、可复现、开放许可的数据集。其核心目标是将最佳的开放日语资源聚合到一个单一、连贯的数据集中,在条目级别进行交叉链接,并根据明确的模式进行验证,且能从固定的上游版本可复现地重建。
数据集状态
- 当前阶段:第4阶段(活跃)。
- 核心数据:在第1至第3阶段已保持稳定。
- 第4阶段进展:已完成242/253(95.7%)的康熙部首;收录了595个手工整理的语法点(覆盖所有JLPT级别,其中90.3%带有例句匹配);整合了KFTT平行语料库(443,849个句子)、JmdictFurigana(28,920个条目)、语料库衍生的词频(14,647个排名词)以及7个新的交叉引用索引。
- 待办事项:所有语法条目仍为
review_status: draft,等待母语者审阅是当前最重要的工作。
数据构成
数据集按功能分为核心、增强、语料库、语法和交叉引用五大类。
核心数据 (data/core/)
kana.json:包含215个平假名、片假名、变体及组合。kanji.json:源自KANJIDIC2,包含13,108个汉字,涵盖读音、含义、笔画数、年级、JLPT等级、频率、部首等信息。kanji-joyo.json:从kanji.json衍生,包含2,136个常用汉字(2010年文部科学省修订版,1-6年级及8年级)。kanji-jinmeiyo.json:从kanji.json衍生,包含863个人名用汉字(9-10年级)。words.json:源自JMdict-examples,包含23,119个常用词汇子集(具有JMdict优先级标记或列入JLPT的词汇)。words-full.json:完整的JMdict数据,包含216,173个条目(含古语、罕见词、专业词汇和方言),约150MB,需通过just build命令重建。radicals.json:源自KRADFILE、RADKFILE和维基百科(康熙部首),包含253个部首及其与汉字的映射关系,其中242个(95.7%)包含英文含义和康熙编号。names.json:源自JMnedict,包含约720,000个专有名词,因体积较大未提交至仓库,需通过just build-names命令构建。
增强数据 (data/enrichment/)
stroke-order/*.svg:源自KanjiVG,为6,416个汉字提供笔画顺序SVG图像,常用汉字覆盖率达100%。pitch-accent.json:源自Kanjium,包含124,011个单词的音调重音信息。furigana.json:源自JmdictFurigana,为28,920个条目提供汉字到假名的逐字符注音对齐。jlpt-classifications.json:源自Waller JLPT列表,为11,099个词汇、汉字和语法点提供社区共识的JLPT N5-N1等级。- 词频数据:包含来自报纸、语料库、字幕、网络、维基百科等多个来源的词频列表,条目数从2,501到14,678不等。
- 其他索引:包括125个量词索引、239个当て字索引、14,350个熟语复合词分解索引等。
语料库数据 (data/corpus/)
sentences.json:源自Tatoeba,包含25,980个编辑精选的日英例句对。sentences-kftt.json:源自KFTT(维基百科京都文章),包含443,849个机器对齐的日英句对,需通过命令构建。- 其他语料库:包含来自Tatoeba完整版、JESC字幕语料库、WikiMatrix的日英平行句对,总计数百万条,均需通过命令构建。
语法数据 (data/grammar/)
grammar.json:原始整理的语法点数据集,包含595个结构化的语法点,涵盖模式、例句、相关引用、正式程度和JLPT等级。所有条目均为草稿状态。conjugations.json:从words.json衍生,包含3,511个动词和形容词的变位表。expressions.json:从JMdict中提取,包含13,220个被标记为“表达式”的词汇语法模式。
交叉引用数据 (data/cross-refs/)
提供了多个维度间的关联索引,例如:
- 汉字到词汇 (
kanji-to-words.json) - 词汇到句子 (
word-to-sentences.json) - 读音到词汇 (
reading-to-words.json) - 语法点到句子 (
grammar-to-sentences.json) - 词汇到语法点 (
word-to-grammar.json) - 词汇关系 (
word-relations.json) 共计十余个索引文件,部分大型索引(如同义词网络)需按需构建。
许可协议
- 整体许可:整个构建的数据集采用 知识共享署名-相同方式共享 4.0 国际许可协议。
- 使用条款:允许使用、再分发、混编和基于此数据进行构建(包括商业用途),但必须注明来源,并且衍生作品需采用相同或兼容的许可协议。
- 特殊义务:继承自EDRDG许可(适用于JMdict、KANJIDIC2等)的要求,面向网络的词典应用程序必须至少每月更新一次数据。本仓库承诺至少每月根据上游数据重建一次,下游服务器也必须遵守此更新频率。
获取与构建
- 克隆仓库:
git clone https://github.com/jkindrix/japanese-language-data.git - 安装依赖(需要
just任务运行器和Python虚拟环境)。 - 执行命令序列: bash just fetch # 下载固定的上游源 just build # 转换和交叉链接数据 just validate # 模式检查所有输出 just stats # 打印计数和覆盖率统计
贡献
项目欢迎贡献,尤其急需:
- 母语者审阅语法数据集(第3阶段),这是v1.0.0版本发布的关键障碍。
- 现有条目的错误报告。
- 额外的增强数据源。
- 模式改进。
搜集汇总
数据集介绍

构建方式
在日语学习资源日益丰富的背景下,Japanese Language Data 数据集通过系统化的整合与重构,构建了一个统一、可复现的开放数据集。该数据集以多个权威开源项目为基础,包括 JMdict、KANJIDIC2、KanjiVG、Tatoeba 等,通过固定的上游版本进行数据抓取与转换。构建过程采用自动化流水线,涵盖数据提取、模式验证、交叉链接及生成衍生视图等环节,确保数据的一致性与完整性。所有输出文件均经过模式校验,并附带元数据头以明确来源,同时支持按需重建以保持与上游数据的同步更新。
特点
该数据集的核心特征在于其高度的集成性与结构化设计。它首次将分散的日语学习资源,如词汇、汉字、例句、语法点及音调信息,整合至单一连贯的数据框架中,并建立了条目级别的交叉引用索引。数据集覆盖了从基础假名到复杂语法结构的全方位内容,同时提供了丰富的增强信息,包括汉字笔顺SVG、词频统计及JLPT分级标注。其开放许可协议(CC-BY-SA 4.0)允许商业使用与二次衍生,但要求保持相同的开放共享原则,从而在学术与应用开发领域均具备广泛的适用性。
使用方法
使用该数据集时,用户可通过克隆代码库并运行构建脚本来获取完整的数据集合。数据集以JSON格式提供,结构清晰且附带模式定义,便于直接集成至学习应用、语言分析工具或研究项目中。开发者可利用其交叉引用关系快速实现词汇查询、例句检索、汉字分解等功能,亦可基于词频与难度标注优化学习路径设计。对于大规模语料库,数据集支持按需生成,以平衡存储效率与数据完整性。所有使用均需遵循许可要求,明确标注数据来源及贡献者信息。
背景与挑战
背景概述
日语学习资源在开源社区中虽丰富却分散,各类词典、例句库与字形数据长期独立存在,缺乏统一整合。Japanese Language Data 数据集应运而生,由开源贡献者主导构建,旨在聚合 JMdict、KANJIDIC2、KanjiVG 等核心资源,通过模式验证与交叉链接,形成一套完整、可复现的结构化数据体系。该数据集聚焦于为日语学习、解析与研究提供底层支持,其跨领域的数据融合显著提升了资源利用效率,推动了日语教育工具与语言技术应用的标准化发展。
当前挑战
该数据集致力于解决日语学习资源碎片化问题,其核心挑战在于如何将异构、多源的语言数据进行有效对齐与深度关联,以支撑词汇、汉字、语法及例句间的复杂查询与应用。在构建过程中,团队面临数据格式不统一、许可证兼容性协调、以及大规模语料预处理等工程难题;此外,语法条目的母语者审校尚未完成,数据权威性仍待加强,而部分频率资源因许可限制无法集成,亦制约了数据集的全面性。
常用场景
经典使用场景
在日语自然语言处理与教育技术领域,Japanese Language Data数据集以其统一、交叉链接的结构,成为构建日语学习应用与语言分析工具的核心资源。该数据集最经典的使用场景在于为智能学习系统提供结构化知识图谱,开发者能够直接调用其整合的词汇、汉字、语法及例句数据,快速搭建具备词汇查询、语法解析和例句生成功能的应用程序。其跨文件索引机制使得从汉字到词汇、从语法点到例句的关联查询变得高效便捷,极大降低了日语教育软件的技术门槛。
解决学术问题
该数据集有效解决了日语语言学研究中资源分散、格式不统一的长期难题。通过整合JMdict、KANJIDIC2、KanjiVG等权威开源项目,并建立系统化的交叉引用关系,研究者能够在一个统一框架下开展词汇语义分析、汉字构形研究和语法模式挖掘。特别是其包含的595个语法点与大量标注JLPT等级的例句,为第二语言习得研究提供了标准化的分析语料,使得跨研究的数据可比性和可复现性得到显著提升。
衍生相关工作
基于该数据集衍生的经典工作主要集中在教育技术工具和语言分析框架两个方向。在工具开发方面,出现了多款整合数据集全部功能的开源学习平台,实现了从汉字笔顺动画到语法点讲解的全流程学习支持。研究领域则涌现出基于其交叉引用网络的知识图谱构建方法,以及利用其频率数据进行的词汇难度分级算法。更有学者将其与神经网络模型结合,开发出能够自动生成语法练习题的智能系统,推动了计算机辅助语言学习技术的创新发展。
以上内容由遇见数据集搜集并总结生成



