yuuki14202028/fixed-kkc-dataset
收藏Hugging Face2026-03-02 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/yuuki14202028/fixed-kkc-dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ja
license: cc-by-sa-3.0
task_categories:
- text-generation
task_ids:
- language-modeling
tags:
- japanese
- kanji
- kana-kanji-conversion
- kkc
- preference
- wikipedia
pretty_name: Fixed KKC Dataset
size_categories:
- 100K<n<1M
configs:
- config_name: default
data_files:
- split: train
path: data/train.jsonl
- split: test
path: data/test.jsonl
---
# Fixed KKC Dataset
日本語Wikipedia入力誤りデータセット (v2) から生成した、かな漢字変換(KKC)タスク用の選好ペアデータセットです。
## データセットの概要
Wikipediaの編集差分のうち `kanji-conversion_a` カテゴリ(誤変換の修正)に該当するものを抽出しています。
各レコードは、カタカナの読みに対して「正しい漢字表記(chosen)」と「誤った表記(rejected)」のペアを持ちます。
かな漢字変換モデルの学習・評価や、選好学習(RLHF / DPO)に利用できます。
## データ形式
各レコードは以下のフィールドを持つ JSON Lines 形式です。
| フィールド | 型 | 説明 |
|---|---|---|
| `left_context` | string | 変換箇所より前の文脈テキスト |
| `prompt` | string | 変換対象語のカタカナ読み |
| `chosen` | string | 正しい漢字表記(Wikipedia編集後) |
| `rejected` | string | 誤った漢字表記(Wikipedia編集前) |
### 例
```json
{
"left_context": "議員の除名には、出席",
"prompt": "ギイン",
"chosen": "議員",
"rejected": "議院"
}
```
```json
{
"left_context": "個人の言語能力は、全体的な知的能力とは乖離することがあり(例として読字障害、ウィリアムズ症候群、自閉症など)、",
"prompt": "コタイ",
"chosen": "個体",
"rejected": "固体"
}
```
```json
{
"left_context": "中世末期から江戸時代にかけて、「は行」の子音は から へ",
"prompt": "イコウ",
"chosen": "移行",
"rejected": "以降"
}
```
## データ規模
| スプリット | レコード数 |
|---|---|
| train | 263,346 |
| test | 1,887 |
元データ(日本語Wikipedia入力誤りデータセット v2)における `kanji-conversion_a` カテゴリの件数は、train: 696,189件中 263,346件(約37.8%)、test: 5,440件中 1,887件(約34.7%)です。
## 使い方
```python
from datasets import load_dataset
ds = load_dataset("yuuki14202028/fixed-kkc-dataset")
# train スプリットの最初のレコード
print(ds["train"][0])
# {
# "left_context": "...",
# "prompt": "カタカナ読み",
# "chosen": "正しい漢字",
# "rejected": "誤った漢字"
# }
```
### DPO / 選好学習での利用例
```python
from datasets import load_dataset
ds = load_dataset("yuuki14202028/fixed-kkc-dataset")
def format_example(example):
instruction = f"{example['left_context']}[{example['prompt']}]"
return {
"prompt": instruction,
"chosen": example["chosen"],
"rejected": example["rejected"],
}
ds = ds.map(format_example)
```
## データソース
本データセットは [日本語Wikipedia入力誤りデータセット (v2)](https://nlp.ist.i.kyoto-u.ac.jp/?%E6%97%A5%E6%9C%AC%E8%AA%9EWikipedia%E5%85%A5%E5%8A%9B%E8%AA%A4%E3%82%8A%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88)(京都大学)を元に生成しました。
変換処理(カタカナ読みの付与)には MeCab + [mozc-as-ma](https://github.com/google/mozc) 辞書を使用しています。
## ライセンス
[CC-BY-SA 3.0](https://creativecommons.org/licenses/by-sa/3.0/)
元データセットと同じライセンスに従います。本データセットを利用・再配布する場合は、同ライセンスの条件に従い、適切なクレジットを表示してください。
提供机构:
yuuki14202028



