vietnamese-news-copus-segmented

Hugging Face2026-03-30 更新2026-03-31 收录

下载链接：

https://huggingface.co/datasets/trungbb8/vietnamese-news-copus-segmented

下载链接

链接失效反馈

官方服务：

资源简介：

越南新闻语料库（清洁与分词版）是一个经过精细处理的越南新闻文章集合，原始数据来源于`ademax/binhvq-news-corpus`。该数据集通过专门的管道进行了清洗、标准化和分词处理，非常适合用于训练越南语语言模型（LLMs）、词嵌入或文本分类任务。数据集包含一个字段：`text`（字符串类型），即经过清洁和分词的越南语文本。数据集规模为7,770,638个训练样本。数据处理流程包括HTML标签清除、文本标准化、广告和签名移除、长度过滤、去重以及使用VnCoreNLP进行分词。数据集适用于越南语文本生成、填充掩码等任务。

创建时间：

2026-03-22

原始信息汇总

数据集概述：Vietnamese News Corpus (Cleaned & Segmented)

数据集摘要

本数据集是一个经过精炼的越南语新闻文章集合，原始来源为 ademax/binhvq-news-corpus。它已通过专门的清洗、规范化和分词流程处理。该数据集适用于训练越南语语言模型、词嵌入或文本分类任务。

原始来源： ademax/binhvq-news-corpus
语言： 越南语 (vi)
格式： 分词文本（使用 VnCoreNLP）

数据处理流程

数据集通过以下自动化流程构建：

HTML 清洗： 使用 BeautifulSoup 剥离所有 HTML 标签和样板内容。
文本规范化：
- 应用 Unicode NFC 规范化。
- 标准化标点符号（引号、破折号、省略号）。
- 移除控制字符并规范化空白字符。
样板内容与签名移除：
- 使用正则表达式移除常见的“查看更多”、“来源”和“照片由”等模式。
- 应用启发式规则检测并移除文章末尾的记者姓名、贡献者信息（CTV）和编辑签名。
长度过滤： 仅保留字符长度在 500 到 20,000 之间的高质量文章。
去重： 使用 MD5 哈希进行精确去重，确保数据唯一性。
分词： 使用 VnCoreNLP 对复合词进行分词（例如，trí tuệ nhân tạo 变为 trí_tuệ nhân_tạo）。

数据集结构

数据集包含一个单独的列：

text (字符串)：最终清洗并分词后的越南语文本。

技术规格

分词工具： VnCoreNLP (wseg 标注器)。
存储： 每个文件最大分片为 500MB，以实现高效的流式传输和下载。

使用方式

您可以使用 Hugging Face datasets 库加载此数据集： python from datasets import load_dataset dataset = load_dataset("trungbb8/vietnamese-news-copus-segmented") print(dataset[train][0][text])

数据集统计信息

配置名称： default
数据文件： data/train-*
任务类别： 文本生成、掩码填充
标签： vietnamese, vietnamese-news
大小类别： 1M<n<10M
训练集大小： 7,770,638 个样本
训练集字节数： 25,992,880,995 字节
数据集总大小： 25,992,880,995 字节
下载大小： 0 字节

局限性

启发式规则： 尽管清洗过程是稳健的，但一些非传统的作者签名可能仍然保留，或者非常简短的结尾句子可能被意外移除。
分词： 如果您的模型需要音节级别的输入，只需将下划线 (_) 替换为空格即可。

许可证

本数据集衍生自 binhvq-news-corpus。用户应参考原始来源的许可条款。

注意： 此数据集是使用自动化流程上传的。如有任何疑问，请联系仓库所有者。

搜集汇总

数据集介绍

构建方式

在越南语自然语言处理领域，高质量文本资源的构建对语言模型训练至关重要。该数据集源自原始新闻语料库，通过一套严谨的自动化流程进行深度处理：首先利用BeautifulSoup剥离HTML标签与冗余模板，随后执行Unicode NFC标准化并统一标点符号，继而采用正则表达式与启发式规则移除文章末尾的记者署名、来源声明等常见模式。为确保数据质量，仅保留字符长度在500至20,000之间的文章，并通过MD5哈希进行精确去重。最终，借助VnCoreNLP工具对复合词进行分词处理，生成结构规范的词级文本。

使用方法

为便于研究与应用，该数据集可通过Hugging Face的datasets库直接加载。用户只需调用load_dataset函数并指定数据集名称，即可获取训练分割。数据以字符串形式存储于‘text’字段中，每条记录均为已完成分词处理的越南语新闻文本。对于需要音节级输入的任务，用户可通过简单替换下划线为空格来实现格式转换。该数据集主要适用于越南语语言模型预训练、词向量学习以及各类文本分类与生成任务，为越南语自然语言处理研究提供了高质量的基准资源。

背景与挑战

背景概述

越南语新闻语料库（清洗与分词版）是面向越南语自然语言处理研究的重要资源，其构建源于对高质量、大规模越南语文本数据的迫切需求。该数据集由研究人员基于ademax/binhvq-news-corpus原始语料，通过系统化清洗与分词流程精炼而成，核心目标在于为越南语语言模型训练、词嵌入学习及文本分类任务提供标准化、结构化的文本基础。其创建反映了东南亚语言计算语言学领域对本土语言资源建设的持续关注，旨在推动越南语信息处理技术的进步，弥补先前语料在规范性与可用性方面的不足，对促进该语言区域的学术与工业应用具有显著影响力。

当前挑战

该数据集致力于解决越南语自然语言处理中的文本规范化与分词挑战，越南语作为孤立语，其词汇边界模糊、复合词丰富，传统规则分词方法易受上下文影响，导致语义歧义。构建过程中，挑战主要体现在多源新闻文本的异质性处理，包括HTML标签、广告信息、记者署名等噪声的高效剔除，以及针对越南语特有的标点、字符编码进行一致性归一化。此外，在保证数据质量的同时，需平衡长度过滤与内容完整性的关系，并借助精确去重机制应对大规模语料中的冗余问题，这些步骤共同构成了数据清洗流程的技术难点。

常用场景

经典使用场景

在越南语自然语言处理领域，该数据集作为高质量的大规模语料库，为语言模型的预训练提供了坚实基础。其经过清洗、标准化和分词处理的文本，特别适用于训练越南语大型语言模型，如BERT或GPT风格的架构，以捕捉越南语复杂的语言结构和上下文语义。研究人员常利用该数据集进行掩码语言建模或因果语言建模任务，以提升模型在越南语上的理解和生成能力。

解决学术问题

该数据集有效解决了越南语自然语言处理研究中数据稀缺和质量参差不齐的学术难题。通过提供大规模、清洁且分词规范的新闻文本，它支持了词嵌入学习、文本分类和序列标注等基础研究，促进了越南语语言模型在低资源语言环境下的性能优化。其存在降低了数据预处理的门槛，使学者能更专注于模型创新，推动了越南语信息处理技术的标准化发展。

实际应用

在实际应用中，该数据集被广泛用于构建越南语智能系统，如新闻摘要生成、情感分析工具和机器翻译引擎。企业可基于此训练定制化的聊天机器人或内容推荐系统，以服务越南语用户群体。教育机构也能利用其开发语言学习平台，提供自动化的文本分析功能。这些应用显著提升了越南语数字服务的效率和准确性。

数据集最近研究