katsukiono/kana-kanji-context

Name: katsukiono/kana-kanji-context
Creator: katsukiono
Published: 2026-01-08 02:47:36
License: 暂无描述

Hugging Face2026-01-08 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/katsukiono/kana-kanji-context

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - ja license: - cc-by-sa-4.0 task_categories: - text-generation tags: - japanese - kana - kanji - ime - disambiguation size_categories: - 10M<n<100M --- # kana-kanji-context Japanese kana-to-kanji conversion dataset with context for disambiguation. ## Overview | Metric | Value | |--------|-------| | Total entries | 77,277,970 | | File size | ~7.4GB | | Format | JSONL | ## Data Format ```json { "input": "神経 [---]かがく", "output": ["科学"], "count": 1 } ``` ```json { "input": "この [---]さいご", "output": ["最後", "最期"], "count": 2 } ``` ### Fields | Field | Description | |-------|-------------| | `input` | Context + `[---]` + reading (hiragana) | | `output` | Correct kanji candidates (max 10) | | `count` | Number of candidates | ### Context Rules - Max 30 characters before the target word - Stops at punctuation (。、！？ etc.) - Minimum 2 characters ### Conjugation Handling Readings match the actual surface form, not the dictionary form: | Surface | Reading | Dictionary Form | |---------|---------|-----------------| | 愛し | あいし | 愛する | | 化し | かし | 化する | | 走っ | はしっ | 走る | ## Usage ```python from datasets import load_dataset dataset = load_dataset("katsukiono/kana-kanji-context") for item in dataset["train"][:3]: print(f"{item['input']} → {item['output']}") ``` ## Examples | Context | Reading | Output | |---------|---------|--------| | 神経 [---] | かがく | 科学 | | パリ市立工業 [---] | かがく | 化学 | | ベルシー [---] | こうえん | 公園 | | 劇団などの [---] | こうえん | 公演 | | 交通 [---] | きかん | 機関 | | ある [---] | きかん | 期間 | ## License CC BY-SA 4.0 (Wikipedia source) ## Source - Wikipedia Japanese: https://dumps.wikimedia.org/jawiki/ - MeCab + UniDic for morphological analysis

语言： - 日语许可证： - CC BY-SA 4.0 任务类别： - 文本生成标签： - 日语 - 假名（kana） - 汉字（kanji） - 输入法（IME） - 消歧（disambiguation）样本规模： - 1000万 < 样本数 < 1亿 # 假名-汉字上下文数据集（kana-kanji-context） ## 概述 | 指标 | 数值 | |--------|-------| | 总条目数 | 77,277,970 | | 文件大小 | 约7.4GB | | 数据格式 | JSONL | ## 数据格式 json { "input": "神経 [---]かがく", "output": ["科学"], "count": 1 } json { "input": "この [---]さいご", "output": ["最後", "最期"], "count": 2 } ### 字段说明 | 字段 | 描述 | |-------|-------------| | `input` | 上下文 + `[---]` + 平假名读音 | | `output` | 正确汉字候选词（最多10个） | | `count` | 候选词总数 | ### 上下文规则 - 目标词前最多保留30个字符 - 以标点符号（。、！？等）作为分隔终止符 - 上下文最小长度为2个字符 ### 词形变化处理读音匹配实际表层形式，而非词典形式： | 表层形式 | 读音 | 词典形式 | |---------|---------|-----------------| | 愛し | あいし | 愛する | | 化し | かし | 化する | | 走っ | はしっ | 走る | ## 使用方法 python from datasets import load_dataset # 加载目标数据集 dataset = load_dataset("katsukiono/kana-kanji-context") # 遍历训练集前3条数据样本 for item in dataset["train"][:3]: print(f"{item['input']} → {item['output']}") ## 示例 | 上下文 | 读音 | 输出候选 | |---------|---------|--------| | 神経 [---] | かがく | 科学 | | パリ市立工業 [---] | かがく | 化学 | | ベルシー [---] | こうえん | 公園 | | 劇団などの [---] | こうえん | 公演 | | 交通 [---] | きかん | 機関 | | ある [---] | きかん | 期間 | ## 许可证 CC BY-SA 4.0（数据源自维基百科） ## 数据来源 - 日语维基百科：https://dumps.wikimedia.org/jawiki/ - 使用MeCab与UniDic进行形态分析

提供机构：

katsukiono

5,000+

优质数据集

54 个

任务类型

进入经典数据集