ViLexNorm

Hugging Face2025-06-21 更新2025-06-22 收录

下载链接：

https://huggingface.co/datasets/visolex/ViLexNorm

下载链接

链接失效反馈

官方服务：

资源简介：

ViLexNorm是一个越南语词汇归一化语料库，包含10467对社交媒体评论数据，每对由一条未归一化的原始评论和一条人工标注的归一化评论组成。这个语料库适用于序列到序列的词汇归一化任务，并提供训练集、验证集和测试集。数据集使用错误减少率(ERR)和标记级准确度作为性能评价指标。

创建时间：

2025-06-16

搜集汇总

数据集介绍

构建方式

ViLexNorm数据集的构建基于越南社交媒体文本的词汇规范化需求，通过人工标注的方式收集了10,467对原始噪声评论及其规范化版本。每对数据包含原始文本、规范化文本、分词后的输入输出列表以及数据集划分类型。数据以CSV格式统一整合，确保了结构的清晰性和使用的便捷性。

特点

ViLexNorm数据集的特点在于其专注于越南语社交媒体文本的词汇规范化任务，提供了原始文本和规范化文本的对照，并包含分词后的输入输出列表。数据集划分为训练集、验证集和测试集，便于模型开发和评估。其标注质量高，适用于序列到序列的词汇规范化任务。

使用方法

使用ViLexNorm数据集时，可通过Hugging Face的`load_dataset`方法加载数据，并根据`type`列筛选训练集、验证集和测试集。数据集支持序列到序列的词汇规范化任务，评估指标包括错误减少率（ERR）和词级准确率。示例代码展示了如何加载和筛选数据，便于快速上手。

背景与挑战

背景概述

ViLexNorm是2024年由越南研究人员Nguyen Thanh-Nhi、Le Thanh-Phong和Nguyen Kiet共同构建的越南语词汇规范化语料库，收录了10,467条社交媒体评论的原始文本及其规范化版本。该数据集旨在解决越南语社交媒体文本中存在的拼写错误、缩写和非标准表达等问题，为自然语言处理领域中的序列到序列词汇规范化任务提供了重要资源。作为首个专注于越南语社交媒体文本规范化的公开数据集，ViLexNorm不仅填补了该领域的研究空白，也为越南语文本预处理和语言模型训练奠定了数据基础。

当前挑战

ViLexNorm面临的挑战主要体现在两方面：领域问题方面，越南语作为低资源语言，其社交媒体文本存在大量非正式表达、方言变体和音译现象，这使得自动规范化系统难以准确捕捉语言变异规律；构建过程方面，数据收集需要平衡不同社交媒体平台的文本多样性，而人工标注则面临越南语复杂音节结构和上下文依赖性的挑战，例如同一词汇在不同语境下可能需要不同的规范化处理。此外，评估指标的设计也需兼顾错误减少率和词级准确率，以全面衡量系统性能。

常用场景

经典使用场景

在越南语自然语言处理领域，ViLexNorm数据集被广泛用于序列到序列的词汇规范化任务。该数据集通过提供社交媒体评论的原始噪声文本及其标准化版本，为研究者构建了从非正式语言到规范越南语的转换基准。典型应用包括训练基于Transformer的神经机器翻译模型，以及评估不同模型在保留语义的同时修复拼写错误、缩写和网络用语的能力。

衍生相关工作

该数据集已催生多项创新研究，如Nguyen等人提出的混合注意力的序列标注模型，在EACL 2024中作为基准系统发布。后续工作探索了基于对比学习的预训练方法，将规范化任务扩展到多方言场景。GitHub开源社区据此构建了越南语文本预处理管道，集成拼写检查与语法纠正功能。

数据集最近研究