five

katsukiono/kana-kanji-context

收藏
Hugging Face2026-01-08 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/katsukiono/kana-kanji-context
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ja license: - cc-by-sa-4.0 task_categories: - text-generation tags: - japanese - kana - kanji - ime - disambiguation size_categories: - 10M<n<100M --- # kana-kanji-context Japanese kana-to-kanji conversion dataset with context for disambiguation. ## Overview | Metric | Value | |--------|-------| | Total entries | 77,277,970 | | File size | ~7.4GB | | Format | JSONL | ## Data Format ```json { "input": "神経 [---]かがく", "output": ["科学"], "count": 1 } ``` ```json { "input": "この [---]さいご", "output": ["最後", "最期"], "count": 2 } ``` ### Fields | Field | Description | |-------|-------------| | `input` | Context + `[---]` + reading (hiragana) | | `output` | Correct kanji candidates (max 10) | | `count` | Number of candidates | ### Context Rules - Max 30 characters before the target word - Stops at punctuation (。、!? etc.) - Minimum 2 characters ### Conjugation Handling Readings match the actual surface form, not the dictionary form: | Surface | Reading | Dictionary Form | |---------|---------|-----------------| | 愛し | あいし | 愛する | | 化し | かし | 化する | | 走っ | はしっ | 走る | ## Usage ```python from datasets import load_dataset dataset = load_dataset("katsukiono/kana-kanji-context") for item in dataset["train"][:3]: print(f"{item['input']} → {item['output']}") ``` ## Examples | Context | Reading | Output | |---------|---------|--------| | 神経 [---] | かがく | 科学 | | パリ市立工業 [---] | かがく | 化学 | | ベルシー [---] | こうえん | 公園 | | 劇団などの [---] | こうえん | 公演 | | 交通 [---] | きかん | 機関 | | ある [---] | きかん | 期間 | ## License CC BY-SA 4.0 (Wikipedia source) ## Source - Wikipedia Japanese: https://dumps.wikimedia.org/jawiki/ - MeCab + UniDic for morphological analysis

语言: - 日语 许可证: - CC BY-SA 4.0 任务类别: - 文本生成 标签: - 日语 - 假名(kana) - 汉字(kanji) - 输入法(IME) - 消歧(disambiguation) 样本规模: - 1000万 < 样本数 < 1亿 # 假名-汉字上下文数据集(kana-kanji-context) ## 概述 | 指标 | 数值 | |--------|-------| | 总条目数 | 77,277,970 | | 文件大小 | 约7.4GB | | 数据格式 | JSONL | ## 数据格式 json { "input": "神経 [---]かがく", "output": ["科学"], "count": 1 } json { "input": "この [---]さいご", "output": ["最後", "最期"], "count": 2 } ### 字段说明 | 字段 | 描述 | |-------|-------------| | `input` | 上下文 + `[---]` + 平假名读音 | | `output` | 正确汉字候选词(最多10个) | | `count` | 候选词总数 | ### 上下文规则 - 目标词前最多保留30个字符 - 以标点符号(。、!?等)作为分隔终止符 - 上下文最小长度为2个字符 ### 词形变化处理 读音匹配实际表层形式,而非词典形式: | 表层形式 | 读音 | 词典形式 | |---------|---------|-----------------| | 愛し | あいし | 愛する | | 化し | かし | 化する | | 走っ | はしっ | 走る | ## 使用方法 python from datasets import load_dataset # 加载目标数据集 dataset = load_dataset("katsukiono/kana-kanji-context") # 遍历训练集前3条数据样本 for item in dataset["train"][:3]: print(f"{item['input']} → {item['output']}") ## 示例 | 上下文 | 读音 | 输出候选 | |---------|---------|--------| | 神経 [---] | かがく | 科学 | | パリ市立工業 [---] | かがく | 化学 | | ベルシー [---] | こうえん | 公園 | | 劇団などの [---] | こうえん | 公演 | | 交通 [---] | きかん | 機関 | | ある [---] | きかん | 期間 | ## 许可证 CC BY-SA 4.0(数据源自维基百科) ## 数据来源 - 日语维基百科:https://dumps.wikimedia.org/jawiki/ - 使用MeCab与UniDic进行形态分析
提供机构:
katsukiono
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作