joyo-kanji-yomi-benchmark
收藏Joyo Kanji Yomi Benchmark 数据集概述
该数据集是一个用于评估日语文本转语音(TTS)系统在汉字级别发音准确性的基准测试工具包,基于 Kana-CER 指标进行评估。
核心特性
- 全面覆盖常用汉字:包含 2,136 个常用汉字及其 4,378 种读法,每个读法对应 3 个不同句子,总计 13,095 个经母语者验证的测试样本。
- 汉字级错误归因:每个句子使用
<>分隔符标注目标汉字的读法,支持针对特定读法的错误分析,精确定位 TTS 系统的发音难点。 - Kana-CER 指标:在片假名空间评估发音准确性,消除因日语正字法差异(如「行う」与「おこなう」与「行なう」)引起的虚假错误。
- 附带 Kana-ASR 模型:提供微调后的 Whisper 模型(sbintuitions/kana-whisper),可直接将语音转录为片假名序列。
- 即用型评估流程:输入合成音频,通过单一命令即可获取每个样本和聚合后的评估结果。
数据格式
每个测试样本为 JSON 格式,包含以下字段:
key: 唯一标识符,格式如精_セイ_0。normalized_text: 标准化后的文本,用于 TTS 系统合成音频。normalized_pron: 标准化的发音标注,目标汉字的读法使用<>包裹,如<セー>。
评估指标
工具包计算三种类型的 CER(字符错误率)指标:
- Kana-CER:仅衡量特定目标汉字的读法选择正确性,基于参考标注中
<>界定的范围。 - Sent-Kana-CER:衡量整个句子的整体发音正确性。
- Standard CER:通过 Whisper 计算的标准 CER,作为与先前工作比较的参考指标。
快速使用
- 使用 TTS 系统根据
normalized_text字段合成音频。 - 将音频文件命名为
{key}.wav,并放置在synthesized_audio/子目录下。 - 运行
eval_dataset.py脚本,通过--dataset-dir参数指定包含音频文件的目录。 - 结果将保存在
eval_results/目录下,包含 ASR 转录、各指标样本级及聚合级结果文件,以及易读的摘要文件summary.txt。
输出文件结构
eval_results/ ├── transcription.kana.jsonl # Kana-ASR 模型输出 ├── transcription.text.jsonl # Text-ASR 模型输出 ├── samples.kana_cer.jsonl # 每个样本的 Kana-CER ├── samples.sent_kana_cer.jsonl # 每个样本的 Sent-Kana-CER ├── samples.cer.jsonl # 每个样本的标准 CER ├── stats.kana_cer.json # 聚合的 Kana-CER 统计 ├── stats.sent_kana_cer.json # 聚合的 Sent-Kana-CER 统计 ├── stats.cer.json # 聚合的标准 CER 统计 └── summary.txt # 人类可读的摘要
自定义数据集评估
可通过 --source-jsonl 参数提供自定义 JSONL 文件。每个条目必须包含带有 <> 包裹目标汉字读法的 normalized_pron 字段。Kana-CER 仅计算标记范围,Sent-Kana-CER 和标准 CER 则基于整个句子。
引用
若在研究中使用了该基准,请引用相关文献(详细信息见原 README)。




