joyo-kanji-yomi-benchmark

github2026-06-29 更新2026-07-01 收录

下载链接：

https://github.com/sbintuitions/Joyo-Kanji-Yomi-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

一个基准工具包，用于使用Kana-CER评估日语文本到语音系统在汉字级别上的发音准确性。提供13,095个母语者验证的测试样本，覆盖2,136个常用汉字及其4,378种读音，并带有句子和汉字级别的片假名标注。

创建时间：

2026-06-03

原始信息汇总

Joyo Kanji Yomi Benchmark 数据集概述

该数据集是一个用于评估日语文本转语音（TTS）系统在汉字级别发音准确性的基准测试工具包，基于 Kana-CER 指标进行评估。

核心特性

全面覆盖常用汉字：包含 2,136 个常用汉字及其 4,378 种读法，每个读法对应 3 个不同句子，总计 13,095 个经母语者验证的测试样本。
汉字级错误归因：每个句子使用 <> 分隔符标注目标汉字的读法，支持针对特定读法的错误分析，精确定位 TTS 系统的发音难点。
Kana-CER 指标：在片假名空间评估发音准确性，消除因日语正字法差异（如「行う」与「おこなう」与「行なう」）引起的虚假错误。
附带 Kana-ASR 模型：提供微调后的 Whisper 模型（sbintuitions/kana-whisper），可直接将语音转录为片假名序列。
即用型评估流程：输入合成音频，通过单一命令即可获取每个样本和聚合后的评估结果。

数据格式

每个测试样本为 JSON 格式，包含以下字段：

key: 唯一标识符，格式如 精_セイ_0。
normalized_text: 标准化后的文本，用于 TTS 系统合成音频。
normalized_pron: 标准化的发音标注，目标汉字的读法使用 <> 包裹，如 <セー>。

评估指标

工具包计算三种类型的 CER（字符错误率）指标：

Kana-CER：仅衡量特定目标汉字的读法选择正确性，基于参考标注中 <> 界定的范围。
Sent-Kana-CER：衡量整个句子的整体发音正确性。
Standard CER：通过 Whisper 计算的标准 CER，作为与先前工作比较的参考指标。

快速使用

使用 TTS 系统根据 normalized_text 字段合成音频。
将音频文件命名为 {key}.wav，并放置在 synthesized_audio/ 子目录下。
运行 eval_dataset.py 脚本，通过 --dataset-dir 参数指定包含音频文件的目录。
结果将保存在 eval_results/ 目录下，包含 ASR 转录、各指标样本级及聚合级结果文件，以及易读的摘要文件 summary.txt。

输出文件结构

eval_results/ ├── transcription.kana.jsonl # Kana-ASR 模型输出 ├── transcription.text.jsonl # Text-ASR 模型输出 ├── samples.kana_cer.jsonl # 每个样本的 Kana-CER ├── samples.sent_kana_cer.jsonl # 每个样本的 Sent-Kana-CER ├── samples.cer.jsonl # 每个样本的标准 CER ├── stats.kana_cer.json # 聚合的 Kana-CER 统计 ├── stats.sent_kana_cer.json # 聚合的 Sent-Kana-CER 统计 ├── stats.cer.json # 聚合的标准 CER 统计 └── summary.txt # 人类可读的摘要

自定义数据集评估

可通过 --source-jsonl 参数提供自定义 JSONL 文件。每个条目必须包含带有 <> 包裹目标汉字读法的 normalized_pron 字段。Kana-CER 仅计算标记范围，Sent-Kana-CER 和标准 CER 则基于整个句子。

引用

若在研究中使用了该基准，请引用相关文献（详细信息见原 README）。

搜集汇总

数据集介绍

构建方式

在日语文本转语音（TTS）系统的研发中，汉字的读音歧义性一直是影响发音准确性的核心挑战。为此，该基准测试数据集以日本官方《常用汉字表》为纲，系统收录了全部2,136个常用汉字及其对应的4,378种读音。针对每一种汉字-读音组合，数据集精心设计了三个语境各异的例句，共计13,095个由母语者验证的测试样本。每个样本均以JSON格式存储，包含唯一标识键（key）、标准化文本（normalized_text）以及标注了目标汉字读音的片假名发音序列（normalized_pron），其中目标汉字的正确读音使用尖括号`<>`进行精确标记。

使用方法

使用该基准测试工具包进行评测的过程简洁而流畅。研究者首先需要利用自己的TTS系统，根据JSON文件中提供的标准化文本生成对应的语音音频，并将音频文件以`{key}.wav`的命名格式存放于`results/`目录下的`synthesized_audio/`子文件夹中，不同的TTS模型可置于独立的子目录。随后，只需运行`eval_dataset.py`脚本并指定`--dataset-dir`参数指向包含音频的目录，工具包即会自动下载基准数据集，依次进行Kana-ASR转录、音素对齐与错误率计算，最终生成包含逐样本分析和聚合统计结果的详尽评测报告，并汇总至`summary.txt`文件中。研究人员亦可提供自定义的JSONL数据文件，通过`--source-jsonl`参数对任意数据集进行专项评估。

背景与挑战

背景概述

日语文本转语音（TTS）系统在生成自然语音时，常因汉字的多音字现象而产生发音错误，这一问题严重制约了合成语音的准确性与可信度。2026年，由SB Intuitions研究团队主导发布的Joyo Kanji Yomi Benchmark应运而生，旨在为日语TTS系统提供一套标准化的汉字级发音评测框架。该数据集覆盖了日本官方常用汉字表中的全部2136个汉字及其4378种读音，每对汉字-读音组合均配有3句母语者验证的测试样本，总计13095条高质量标注数据。通过引入创新的Kana-CER（片假名字错误率）指标并联合专用的Kana-ASR模型，该基准将评测空间从复杂的日语正字法映射至统一的片假名序列，从而精准定位TTS系统在特定汉字读音上的缺陷。这一工作不仅填补了日语语音生成领域缺少细粒度汉字评测工具的空白，也为后续研究提供了可复现的标准化流程，对推动日语TTS技术的稳健发展具有里程碑意义。

当前挑战

构建该数据集面临的首要挑战源于日语汉字读音的高度多义性。同一汉字在不同语境下可能对应截然不同的读音，例如「生」字可读作「セイ」「ショウ」「いきる」等，这要求标注体系必须兼顾上下文语义与发音规则，而传统基于字符的错误率指标无法区分读音选择错误与音素变形错误。该基准通过为每个句子中目标汉字的读音添加尖括号标记，实现了读音级别的错误归因，但如何确保跨语境读音标注的一致性与母语者验证的可靠性仍是核心难点。在构建过程中，研究团队需从大规模语料中筛选出能覆盖每种读音的自然句子，并确保句子的语义清晰、发音自然，同时避免稀有读音因数据稀疏而被忽视。此外，配套的Kana-ASR模型需在片假名转录任务上达到高精度，以消除音素识别噪声对评测结果的干扰，这要求模型具备对日语特殊发音现象（如长音、促音、拗音）的鲁棒性。这些挑战共同决定了该基准的评测粒度与实用性，也为其他语言的多音字TTS评测提供了宝贵方法论参考。

常用场景

经典使用场景

在日语文本转语音（TTS）系统的研究中，汉字的读音歧义性是一个长期存在的技术挑战。Joyo Kanji Yomi Benchmark 作为一个专为评估 TTS 系统对常用汉字读音准确度而设计的基准工具包，其经典使用场景在于：研究者利用其提供的13,095个母语者验证的测试样本，覆盖全部2,136个常用汉字及其4,378种读音，通过Kana-CER指标精确衡量合成语音中每个目标汉字的发音正确性，从而系统性地诊断TTS模型在哪些读音组合上表现薄弱，为模型迭代提供细粒度的反馈。

解决学术问题

该数据集有效解决了日语TTS研究领域面临的汉字多音字评估难题，即传统CER指标因忽略汉字读音选择的正确性而无法反映真实发音质量。通过引入汉字级别的误差归因机制和基于片假名的Kana-CER度量标准，它消除了日语书写变体带来的伪误差，使研究者能够精准量化模型在多音字读音预测上的成功率。这一突破性设计显著推动了日语语音合成评估方法的科学化，为后续模型训练和优化提供了实证基础，深化了对汉字读音歧义性问题的理解。

实际应用

在实际应用中，Joyo Kanji Yomi Benchmark 可直接集成到TTS系统的开发与测试流程中。开发者只需用目标TTS模型合成指定文本的音频，并通过配套的命令行工具自动完成语音识别、转录对齐和指标计算，即可获得每个样本及整体模型的Kana-CER、句子级片假名CER和标准CER结果。此工具特别适用于日语语音助手、有声读物生成、语言学习软件等场景，帮助开发团队快速定位系统在特定汉字读音上的错误模式，从而针对性地调整模型参数或扩充训练数据，提升多音字发音的自然度和准确性。

数据集最近研究