nrl-ai/vn-spell-correction-train

Name: nrl-ai/vn-spell-correction-train
Creator: nrl-ai
Published: 2026-04-30 08:18:56
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/nrl-ai/vn-spell-correction-train

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个越南语拼写校正训练数据集，包含459,478对（噪声，干净）越南语训练对，用于微调序列到序列的拼写校正模型。数据集的干净文本来自越南语维基百科和越南语新闻，噪声通过nom-vn库合成，包括轻度噪声、Telex输入法错误噪声和重度噪声三种预设。拼写校正任务涵盖音调恢复、键盘输入错误和OCR字符替换等。数据集格式为JSONL，包含训练集和验证集。许可证为CC-BY-SA-4.0。

This dataset is a Vietnamese spell-correction training dataset containing 459,478 (noisy, clean) Vietnamese training pairs for fine-tuning a seq2seq spell-correction model. The clean side of the dataset is sourced from Vietnamese Wikipedia and Vietnamese news, while the noisy side is synthetically generated using the nom-vn library with three noise presets: light noise, Telex typo noise, and heavy noise. The spell-correction task includes diacritic restoration, keyboard typos, and OCR-style character substitutions. The dataset is formatted in JSONL and includes train and validation splits. The license is CC-BY-SA-4.0.

提供机构：

nrl-ai

搜集汇总

数据集介绍

构建方式

该数据集由越南语维基百科与新闻文本构成清洁端语料，分别遵循CC-BY-SA-4.0与CC-BY-4.0协议，经NFC规范化处理后，通过`nom-vn`库的`nom.text.noise`模块对清洁文本施加三类合成噪声，包括模拟键盘输入错误的轻度噪声、模拟Telex/VNI输入法声调错误的特莱克斯噪声，以及模拟OCR识别错误的重度噪声，三类噪声以轮询方式均匀分布，最终生成459,478条（含噪文本，清洁文本）配对样本，确保模型能够学习多样化的拼写错误模式。

特点

该数据集涵盖了拼写校正任务的完整范畴，不仅包括声调恢复，还涉及字母缺失与冗余、键盘手误、以及OCR字符混淆等复杂噪声场景，相对于仅处理声调丢失的常规数据集，其适用性更为广泛。通过确定性的种子控制，可复现完全一致的训练配对，严谨的评估泄露防护机制确保训练集与独立评估集无重叠。

使用方法

开发者可通过HuggingFace的`datasets`库直接加载，指定`split='train'`即获得训练集，每条数据以JSON格式包含`input`与`target`字段。该数据集适用于微调序列到序列（seq2seq）模型，例如T5或Bart架构，用于越南语拼写校正任务。推荐在训练后结合官方评估集（`nrl-ai/vn-spell-correction-eval`）进行性能验证，并依据CC-BY-SA-4.0协议声明来源。

背景与挑战

背景概述

在自然语言处理领域，拼写纠错是提升文本质量与下游任务性能的关键环节，尤其对于形态丰富的语言如越南语而言，其复杂的声调系统和输入法错误导致拼写校正任务面临独特挑战。vn-spell-correction-train数据集由Neural Research Lab的Viet-Anh Nguyen等人于2026年创建，旨在为越南语序列到序列拼写校正模型提供大规模训练数据。该数据集包含459,478对(噪声，干净)越南语文本对，其核心研究问题在于构建一个能够同时处理声调恢复、字符替换和键盘误触等多类型错误的统一校正模型。作为越南语拼写校正领域的重要资源，该数据集通过合成噪声技术模拟真实场景中的打字错误与OCR输出，为相关研究提供了标准化的训练基准，显著推动了越南语文本纠错技术的发展。

当前挑战

该数据集旨在解决越南语拼写校正这一领域难题，其挑战包括：1)拼写校正是声调恢复的超集，需要同时应对声调缺失、字母替换、键盘误触及OCR字符混淆等多种噪声类型，而传统方法往往仅专注于单一错误来源；2)构建过程中面临的挑战在于生成逼真的合成噪声，需设计三种校准噪声预设（轻噪声、Telex输入法错误和重噪声）以平衡不同类型错误的分布，同时确保噪声的确定性和可复现性；3)数据集需避免训练与评估集之间的信息泄露，通过哈希校验实现严格防护，这对数据清洗与预处理流程提出了极高要求。

常用场景

经典使用场景

在越南语自然语言处理领域，拼写纠错是一项基础而关键的任务，尤其适用于处理带有打字错误、声调混乱或光学字符识别（OCR）噪声的文本。该数据集提供了近46万对经过精心构造的（噪声，干净）训练样本，覆盖从轻度键盘误触到重度OCR退化的多种噪声模式，为序列到序列模型的微调提供了标准范式。经典使用场景包括：针对越南语键盘输入错误（如Telex或VNI输入法导致的声调错位）、社交媒体短文本中的拼写失常，以及扫描文档的OCR后处理等进行模型训练。研究者可直接基于这些配对数据训练Transformer架构的编解码器模型，在越南语拼写纠错任务上达到最优效果。

衍生相关工作

该数据集的发布衍生了一系列相关研究工作。首先，其设计的合成噪声方案采用三阶段轮换机制，为后续低资源语言噪声数据增强提供了可复现的模板。基于该数据集训练的拼写纠错模型可替代传统声调还原模型，在更嘈杂的输入分布上保持更高精度。进一步，研究者可将其与对应的评测集（如vn-spell-correction-eval）结合，系统评估模型对未知噪声类型的泛化能力。同时，该数据集促使了越南语文本领域统一评测基准的建立，为对比不同噪声注入策略、模型架构与预训练权重效果提供了标准化平台，推动了越南语文本纠错技术的持续迭代与优化。

数据集最近研究