five

yuuki14202028/fixed-kkc-dataset

收藏
Hugging Face2026-03-02 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/yuuki14202028/fixed-kkc-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ja license: cc-by-sa-3.0 task_categories: - text-generation task_ids: - language-modeling tags: - japanese - kanji - kana-kanji-conversion - kkc - preference - wikipedia pretty_name: Fixed KKC Dataset size_categories: - 100K<n<1M configs: - config_name: default data_files: - split: train path: data/train.jsonl - split: test path: data/test.jsonl --- # Fixed KKC Dataset 日本語Wikipedia入力誤りデータセット (v2) から生成した、かな漢字変換(KKC)タスク用の選好ペアデータセットです。 ## データセットの概要 Wikipediaの編集差分のうち `kanji-conversion_a` カテゴリ(誤変換の修正)に該当するものを抽出しています。 各レコードは、カタカナの読みに対して「正しい漢字表記(chosen)」と「誤った表記(rejected)」のペアを持ちます。 かな漢字変換モデルの学習・評価や、選好学習(RLHF / DPO)に利用できます。 ## データ形式 各レコードは以下のフィールドを持つ JSON Lines 形式です。 | フィールド | 型 | 説明 | |---|---|---| | `left_context` | string | 変換箇所より前の文脈テキスト | | `prompt` | string | 変換対象語のカタカナ読み | | `chosen` | string | 正しい漢字表記(Wikipedia編集後) | | `rejected` | string | 誤った漢字表記(Wikipedia編集前) | ### 例 ```json { "left_context": "議員の除名には、出席", "prompt": "ギイン", "chosen": "議員", "rejected": "議院" } ``` ```json { "left_context": "個人の言語能力は、全体的な知的能力とは乖離することがあり(例として読字障害、ウィリアムズ症候群、自閉症など)、", "prompt": "コタイ", "chosen": "個体", "rejected": "固体" } ``` ```json { "left_context": "中世末期から江戸時代にかけて、「は行」の子音は から へ", "prompt": "イコウ", "chosen": "移行", "rejected": "以降" } ``` ## データ規模 | スプリット | レコード数 | |---|---| | train | 263,346 | | test | 1,887 | 元データ(日本語Wikipedia入力誤りデータセット v2)における `kanji-conversion_a` カテゴリの件数は、train: 696,189件中 263,346件(約37.8%)、test: 5,440件中 1,887件(約34.7%)です。 ## 使い方 ```python from datasets import load_dataset ds = load_dataset("yuuki14202028/fixed-kkc-dataset") # train スプリットの最初のレコード print(ds["train"][0]) # { # "left_context": "...", # "prompt": "カタカナ読み", # "chosen": "正しい漢字", # "rejected": "誤った漢字" # } ``` ### DPO / 選好学習での利用例 ```python from datasets import load_dataset ds = load_dataset("yuuki14202028/fixed-kkc-dataset") def format_example(example): instruction = f"{example['left_context']}[{example['prompt']}]" return { "prompt": instruction, "chosen": example["chosen"], "rejected": example["rejected"], } ds = ds.map(format_example) ``` ## データソース 本データセットは [日本語Wikipedia入力誤りデータセット (v2)](https://nlp.ist.i.kyoto-u.ac.jp/?%E6%97%A5%E6%9C%AC%E8%AA%9EWikipedia%E5%85%A5%E5%8A%9B%E8%AA%A4%E3%82%8A%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88)(京都大学)を元に生成しました。 変換処理(カタカナ読みの付与)には MeCab + [mozc-as-ma](https://github.com/google/mozc) 辞書を使用しています。 ## ライセンス [CC-BY-SA 3.0](https://creativecommons.org/licenses/by-sa/3.0/) 元データセットと同じライセンスに従います。本データセットを利用・再配布する場合は、同ライセンスの条件に従い、適切なクレジットを表示してください。
提供机构:
yuuki14202028
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作