日本語Wikipedia入力誤りデータセット (v2)

github2025-01-13 更新2025-02-10 收录

下载链接：

https://github.com/azooKey/AJIMEE-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

基于日本语Wikipedia输入错误数据集(v2)构建的数据，包含了输入、期望输出、原始文本等信息，用于评价日本语输入法的性能。

The dataset is constructed based on the Japanese Wikipedia input error dataset (v2) and includes input, expected output, and original text information for evaluating the performance of Japanese input methods.

创建时间：

2025-01-13

原始信息汇总

AJIMEE-Bench (Advanced Japanese IME Evaluation Benchmark) 数据集概述

数据集来源

基于日本語Wikipedia入力誤りデータセット (v2)构建。

数据构建方法

从日本語Wikipedia入力誤りデータセット (v2)的测试数据中，采样200件包含kanji-conversion_a类型错误的项目（约占整体的20%）。
将200件数据分为：
- 100件带有左文脉的假名汉字转换数据。
- 100件无条件的假名汉字转换数据。
对每件数据的一部分进行切分，作为转换目标文本，并进行读音估计，将其作为输入。
人工检查和修正输入（读音）及切分的合理性，若转换候选不唯一，则列举可接受的解。

数据字段说明

index：原始数据中的行号。
context_text：（如有）左文脉。
input：以片假名表示的输入。
expected_output：列举可接受的转换候选。
original_text：原始数据中的完整句子。
splitted_input_for_limited_input_length：为有输入长度限制的方法准备的输入分割位置数据（输入较长时提供）。

数据示例

json { "index": "1890", "context_text": "", "input": "カケイヲタスケルタメ、リョウシュノイエニホウコウシ", "expected_output": [ "家計を助けるため、領主の家に奉公し", "家計を助ける為、領主の家に奉公し" ], "original_text": "家計を助けるため、領主の家に奉公している。", "splitted_input_for_limited_input_length": [] }

许可证

数据遵循原始数据的CC-BY-SA 3.0许可证。
提供的Python评估实现（utils.py和test_utils.py）遵循CC0 1.0 Universal许可证。

搜集汇总

数据集介绍

构建方式

日本語Wikipedia入力誤りデータセット (v2)を基盤とし、特定の入力誤りタイプを含むデータ项をサンプリング及び加工することで構築されています。具体的には、テストデータから「kanji-conversion_a」タイプの誤りを含む200件の項目を抽出し、その内100件に左文脈を追加して変換対象テキストとしたり、残りの100件を無条件の変換用データとして利用しました。さらに、人手で入力の妥当性を確認し、変換候補が一意でない場合に許容解を列挙することでデータの信頼性を向上させました。

特点

本データ集の特色は、日本語の入力誤りデータを用いたIME評価に特化している点にあります。元データの信頼性を保ちつつ、左文脈の有無に応じたデータを提供することで、評価の多様性を確保しています。また、入力誤りが多様なため、IMEの性能を包括的に評価するのに適しています。

使用方法

本データ集を使用する際には、提供されたPython向け評価実装を用いると便利です。評価コードは「utils.py」にまとめられており、必要に応じて利用できます。また、評価コードの正否を確認するための「test_utils.py」も用意されているため、評価の信頼性を確認しながらデータを使用できます。

背景与挑战

背景概述

日本語Wikipedia入力誤りデータセット (v2) は、AJIMEE-Bench（Advanced Japanese IME Evaluation Benchmark）の一部として構築された評価データ集です。このデータ集は、日本語の入力エラーを含む文を提供し、日本語のIME（Input Method Editor）の性能評価を目的としています。2010年代後半に京都大学の研究者たちによって開発され、日本語の文字変換技術の向上に寄与する重要なデータセットとして広く利用されています。データ集はCC-BY-SA 3.0のライセンスに基づいて公開されており、研究者や開発者にとって貴重なリソースとなっています。

当前挑战

このデータ集の構築に際しては、以下の挑战が存在しました。まず、多様な入力誤りパターンの収集とその正確な分類が挙げられます。また、データの前処理において、入力誤りとその正しい変換候補の関係を的確に捉えることが求められました。評価の観点からは、IMEの性能を多面的に評価するための適切な評価方法の確立が重要な挑战でした。さらに、IMEの実用性向上のためには、データの多様性と質の向上が継続的に求められています。

常用场景

经典使用场景

AJIMEE-Bench数据集，旨在为高级日语输入法编辑器的性能评估提供基准。其经典使用场景在于通过提供包含输入错误的日语Wikipedia文本，使得研究者能够对输入法的错误检测与纠正能力进行量化分析，从而优化输入法的转换准确性和用户体验。

衍生相关工作

基于AJIMEE-Bench数据集的研究，衍生出了一系列相关工作，如输入错误检测算法的改进、错误分类体系的构建，以及输入法用户行为的分析等。这些研究进一步拓展了该数据集的应用范围，并对自然语言处理技术的发展产生了积极影响。

数据集最近研究