katsukiono/kana-kanji-context
收藏Hugging Face2026-01-08 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/katsukiono/kana-kanji-context
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ja
license:
- cc-by-sa-4.0
task_categories:
- text-generation
tags:
- japanese
- kana
- kanji
- ime
- disambiguation
size_categories:
- 10M<n<100M
---
# kana-kanji-context
Japanese kana-to-kanji conversion dataset with context for disambiguation.
## Overview
| Metric | Value |
|--------|-------|
| Total entries | 77,277,970 |
| File size | ~7.4GB |
| Format | JSONL |
## Data Format
```json
{
"input": "神経 [---]かがく",
"output": ["科学"],
"count": 1
}
```
```json
{
"input": "この [---]さいご",
"output": ["最後", "最期"],
"count": 2
}
```
### Fields
| Field | Description |
|-------|-------------|
| `input` | Context + `[---]` + reading (hiragana) |
| `output` | Correct kanji candidates (max 10) |
| `count` | Number of candidates |
### Context Rules
- Max 30 characters before the target word
- Stops at punctuation (。、!? etc.)
- Minimum 2 characters
### Conjugation Handling
Readings match the actual surface form, not the dictionary form:
| Surface | Reading | Dictionary Form |
|---------|---------|-----------------|
| 愛し | あいし | 愛する |
| 化し | かし | 化する |
| 走っ | はしっ | 走る |
## Usage
```python
from datasets import load_dataset
dataset = load_dataset("katsukiono/kana-kanji-context")
for item in dataset["train"][:3]:
print(f"{item['input']} → {item['output']}")
```
## Examples
| Context | Reading | Output |
|---------|---------|--------|
| 神経 [---] | かがく | 科学 |
| パリ市立工業 [---] | かがく | 化学 |
| ベルシー [---] | こうえん | 公園 |
| 劇団などの [---] | こうえん | 公演 |
| 交通 [---] | きかん | 機関 |
| ある [---] | きかん | 期間 |
## License
CC BY-SA 4.0 (Wikipedia source)
## Source
- Wikipedia Japanese: https://dumps.wikimedia.org/jawiki/
- MeCab + UniDic for morphological analysis
语言:
- 日语
许可证:
- CC BY-SA 4.0
任务类别:
- 文本生成
标签:
- 日语
- 假名(kana)
- 汉字(kanji)
- 输入法(IME)
- 消歧(disambiguation)
样本规模:
- 1000万 < 样本数 < 1亿
# 假名-汉字上下文数据集(kana-kanji-context)
## 概述
| 指标 | 数值 |
|--------|-------|
| 总条目数 | 77,277,970 |
| 文件大小 | 约7.4GB |
| 数据格式 | JSONL |
## 数据格式
json
{
"input": "神経 [---]かがく",
"output": ["科学"],
"count": 1
}
json
{
"input": "この [---]さいご",
"output": ["最後", "最期"],
"count": 2
}
### 字段说明
| 字段 | 描述 |
|-------|-------------|
| `input` | 上下文 + `[---]` + 平假名读音 |
| `output` | 正确汉字候选词(最多10个) |
| `count` | 候选词总数 |
### 上下文规则
- 目标词前最多保留30个字符
- 以标点符号(。、!?等)作为分隔终止符
- 上下文最小长度为2个字符
### 词形变化处理
读音匹配实际表层形式,而非词典形式:
| 表层形式 | 读音 | 词典形式 |
|---------|---------|-----------------|
| 愛し | あいし | 愛する |
| 化し | かし | 化する |
| 走っ | はしっ | 走る |
## 使用方法
python
from datasets import load_dataset
# 加载目标数据集
dataset = load_dataset("katsukiono/kana-kanji-context")
# 遍历训练集前3条数据样本
for item in dataset["train"][:3]:
print(f"{item['input']} → {item['output']}")
## 示例
| 上下文 | 读音 | 输出候选 |
|---------|---------|--------|
| 神経 [---] | かがく | 科学 |
| パリ市立工業 [---] | かがく | 化学 |
| ベルシー [---] | こうえん | 公園 |
| 劇団などの [---] | こうえん | 公演 |
| 交通 [---] | きかん | 機関 |
| ある [---] | きかん | 期間 |
## 许可证
CC BY-SA 4.0(数据源自维基百科)
## 数据来源
- 日语维基百科:https://dumps.wikimedia.org/jawiki/
- 使用MeCab与UniDic进行形态分析
提供机构:
katsukiono



