yuuki14202028/fixed-kkc-dataset

Name: yuuki14202028/fixed-kkc-dataset
Creator: yuuki14202028
Published: 2026-03-02 12:05:30
License: 暂无描述

Hugging Face2026-03-02 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/yuuki14202028/fixed-kkc-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - ja license: cc-by-sa-3.0 task_categories: - text-generation task_ids: - language-modeling tags: - japanese - kanji - kana-kanji-conversion - kkc - preference - wikipedia pretty_name: Fixed KKC Dataset size_categories: - 100K<n<1M configs: - config_name: default data_files: - split: train path: data/train.jsonl - split: test path: data/test.jsonl --- # Fixed KKC Dataset 日本語Wikipedia入力誤りデータセット (v2) から生成した、かな漢字変換（KKC）タスク用の選好ペアデータセットです。 ## データセットの概要 Wikipediaの編集差分のうち `kanji-conversion_a` カテゴリ（誤変換の修正）に該当するものを抽出しています。各レコードは、カタカナの読みに対して「正しい漢字表記（chosen）」と「誤った表記（rejected）」のペアを持ちます。かな漢字変換モデルの学習・評価や、選好学習（RLHF / DPO）に利用できます。 ## データ形式各レコードは以下のフィールドを持つ JSON Lines 形式です。 | フィールド | 型 | 説明 | |---|---|---| | `left_context` | string | 変換箇所より前の文脈テキスト | | `prompt` | string | 変換対象語のカタカナ読み | | `chosen` | string | 正しい漢字表記（Wikipedia編集後） | | `rejected` | string | 誤った漢字表記（Wikipedia編集前） | ### 例 ```json { "left_context": "議員の除名には、出席", "prompt": "ギイン", "chosen": "議員", "rejected": "議院" } ``` ```json { "left_context": "個人の言語能力は、全体的な知的能力とは乖離することがあり（例として読字障害、ウィリアムズ症候群、自閉症など）、", "prompt": "コタイ", "chosen": "個体", "rejected": "固体" } ``` ```json { "left_context": "中世末期から江戸時代にかけて、「は行」の子音は　から　へ", "prompt": "イコウ", "chosen": "移行", "rejected": "以降" } ``` ## データ規模 | スプリット | レコード数 | |---|---| | train | 263,346 | | test | 1,887 | 元データ（日本語Wikipedia入力誤りデータセット v2）における `kanji-conversion_a` カテゴリの件数は、train: 696,189件中 263,346件（約37.8%）、test: 5,440件中 1,887件（約34.7%）です。 ## 使い方 ```python from datasets import load_dataset ds = load_dataset("yuuki14202028/fixed-kkc-dataset") # train スプリットの最初のレコード print(ds["train"][0]) # { # "left_context": "...", # "prompt": "カタカナ読み", # "chosen": "正しい漢字", # "rejected": "誤った漢字" # } ``` ### DPO / 選好学習での利用例 ```python from datasets import load_dataset ds = load_dataset("yuuki14202028/fixed-kkc-dataset") def format_example(example): instruction = f"{example['left_context']}[{example['prompt']}]" return { "prompt": instruction, "chosen": example["chosen"], "rejected": example["rejected"], } ds = ds.map(format_example) ``` ## データソース本データセットは [日本語Wikipedia入力誤りデータセット (v2)](https://nlp.ist.i.kyoto-u.ac.jp/?%E6%97%A5%E6%9C%AC%E8%AA%9EWikipedia%E5%85%A5%E5%8A%9B%E8%AA%A4%E3%82%8A%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88)（京都大学）を元に生成しました。変換処理（カタカナ読みの付与）には MeCab + [mozc-as-ma](https://github.com/google/mozc) 辞書を使用しています。 ## ライセンス [CC-BY-SA 3.0](https://creativecommons.org/licenses/by-sa/3.0/) 元データセットと同じライセンスに従います。本データセットを利用・再配布する場合は、同ライセンスの条件に従い、適切なクレジットを表示してください。

提供机构：

yuuki14202028

5,000+

优质数据集

54 个

任务类型

进入经典数据集