Vietnamese Offensive Words List

github2025-12-06 更新2025-12-07 收录

下载链接：

https://github.com/KienCuong2004/VNOffensiveWords

下载链接

链接失效反馈

官方服务：

资源简介：

一个全面的越南语冒犯性词汇列表，包含541多个词汇，涵盖13个类别。适用于内容过滤、审核系统和研究目的。

A comprehensive Vietnamese offensive vocabulary list containing over 541 terms, covering 13 categories. It is designed for content filtering, moderation systems and research applications.

创建时间：

2025-12-06

原始信息汇总

越南语冒犯性词汇数据集概述

数据集基本信息

数据集名称：Vietnamese Offensive Words List
创建目的：作为不当内容过滤机制的资源，现与社区共享以供有相同需求者使用。
数据规模：包含 593 个词汇，涵盖 14 个类别。
数据格式：提供 TXT、JSON 及数组格式共 3 种格式。
许可证：MIT License。
版本：1.0.0。

数据内容与结构

词汇特征

词汇包含带越南语原生声调的原词及其变体（如：不带声调、缩写形式或“青少年代码”形式）。
所有词汇均为小写。
词汇按关联类别进行分类。

文件格式详情

文本格式 (vn_offensive_words.txt)
- 包含类别标题和注释行（以“#”开头，处理时应忽略）。
- 每行列出一个词汇。
JSON 格式 (vn_offensive_words.json)
- 结构包含：
  - words：所有冒犯性词汇的数组。
  - categories：按类别分组的词汇对象。
  - total_words：词汇总数。
  - total_categories：类别总数。
- 示例结构： json { "words": ["buồi", "buoi", "cặc", "cak", ...], "categories": { "Buồi, and its variants": ["buồi", "buoi", ...], "Cặc, and its variants": ["cặc", "cak", ...] }, "total_words": 593, "total_categories": 14 }
数组格式 (vn_offensive_words_other_formats.txt)
- 包含两种数组格式：单引号逗号分隔数组和单引号分号分隔数组。

词汇变体示例

原词（带声调）	变体（无声调）	缩写形式	青少年代码
đủ má	du ma, duma	dm, đm	đmá
đụ mẹ	du me, dume	đm, dm	-
cặc	cak, kak, kac, cac	-	-
lồn	lon, loz	l`, ml	-

使用方式

安装

Node.js：npm install vn-offensive-words
Python：pip install vn-offensive-words
直接下载：克隆 https://github.com/KienCuong2004/VNOffensiveWords.git 仓库。

使用示例

提供了 JavaScript/Node.js、Python 和 TypeScript 的示例代码，用于检测文本中是否包含冒犯性词汇。

开发与贡献

工具脚本

scripts/validate.py：验证数据集的重复项、格式一致性和编码。
scripts/sync_formats.py：当 vn_offensive_words.txt 更新时，自动同步所有格式。
scripts/generate_stats.py：生成数据集的详细统计信息。

测试

运行 Python 测试：python -m pytest tests/test_validate.py -v
运行 JavaScript 测试：npm test

贡献指南

鼓励社区贡献以丰富该列表。
贡献步骤包括： Fork 仓库、在 vn_offensive_words.txt 的适当类别中添加新词、运行同步和验证脚本、创建 Pull Request。
接受的词汇格式：带越南语原生声调的原词、缩写形式或青少年代码形式。
可能不被接受的格式：已列出词汇的短语形式、常规人称代词、仅在特定语境下具有冒犯性的单词、不强调侮辱态度的负面含义词汇。

免责声明

该列表仅用于科学目的。
强烈建议不要在任何形式的交流（口头或书面）中使用这些冒犯性词汇，因为它们严重违反社区标准并倾向于直接侮辱他人。

搜集汇总

数据集介绍

构建方式

在越南语自然语言处理领域，构建一个全面且结构化的冒犯性词汇库对于内容过滤系统的开发至关重要。越南冒犯性词汇列表的构建采用了系统化的方法，首先广泛收集了越南语中常见的冒犯性词汇及其变体，包括带有原生声调的原词、无音调变体、缩写形式以及青少年网络用语等。这些词汇随后被细致地划分为14个语义类别，以确保分类的逻辑性和实用性。数据集以多种格式呈现，包括纯文本、JSON以及数组格式，每种格式都经过脚本验证，以确保数据的一致性和无重复性。整个构建过程强调社区贡献，通过开放的协作机制不断丰富和更新词汇条目，从而保证了数据集的时效性和覆盖面。

特点

该数据集的一个显著特点是其全面性和结构化设计。它收录了593个越南语冒犯性词汇，覆盖了14个不同的语义类别，为研究者提供了丰富的语言材料。数据集不仅包含词汇的原生形式，还系统地整合了多种变体，如无音调拼写、缩写和网络用语，这极大地增强了其在文本检测应用中的实用性。数据以多种格式提供，包括便于直接读取的纯文本文件、结构化的JSON数据以及数组格式，满足了不同编程环境和研究需求。JSON格式特别提供了按类别分组的数据结构，便于进行细粒度的分析和应用。数据集的构建注重质量，配备了验证脚本以确保数据的准确性和一致性，体现了严谨的学术态度。

使用方法

该数据集为开发越南语不当内容过滤机制提供了直接支持。使用者可以通过npm或pip包管理器便捷地安装对应的库，也可以直接克隆仓库获取原始数据文件。在具体应用中，开发者可以加载JSON或文本格式的词汇列表，将其转换为集合数据结构，然后对输入的越南语文本进行分词和标准化处理，通过查询集合来检测文本中是否包含冒犯性词汇。数据集附带了JavaScript、Python和TypeScript的完整示例代码，清晰地展示了检测函数的实现逻辑。对于高级应用，数据集提供的分类信息允许进行基于类别的差异化内容处理。此外，仓库还提供了用于数据同步、验证和统计生成的实用脚本，方便用户维护和扩展数据集。

背景与挑战

背景概述

在自然语言处理与内容审核领域，构建高质量的敏感词库是保障数字空间文明交流的关键基础。越南语冒犯性词语列表（Vietnamese Offensive Words List）由开发者KienCuong2004于GitHub平台开源发布，旨在为越南语在线内容过滤机制提供系统化的词汇资源。该数据集收录了涵盖14个类别的593个冒犯性词汇及其变体，包括原词、无音标形式、缩写及网络用语变体，并以TXT、JSON等多种结构化格式提供，显著提升了越南语有害内容自动检测的准确性与效率。作为一项社区驱动的语言学资源，该数据集不仅服务于学术研究，也为社交媒体平台、在线论坛等内容审核系统的开发提供了重要支持，推动了越南语自然语言处理技术在伦理与安全维度的发展。

当前挑战

构建越南语冒犯性词语列表面临多重挑战。在领域问题层面，越南语冒犯性词汇检测需应对语言的高度动态性，包括网络用语快速演变、方言变体丰富以及语境依赖性强的特点，这导致静态词库难以全面覆盖新兴冒犯表达。构建过程中的挑战则体现在词汇收集与标注的复杂性上：需平衡词汇的全面性与精确性，避免纳入仅在某些语境下才具冒犯性的中性词汇；同时，处理词汇变体（如无音标形式、缩写、青少年用语）时需确保格式一致性，并建立有效的去重与验证机制。此外，维护词库的时效性以反映语言使用变化，以及确保跨格式数据同步的准确性，均是数据集持续迭代中需解决的技术难题。

常用场景

经典使用场景

在越南语自然语言处理领域，越南语冒犯性词汇列表为内容过滤机制提供了关键资源。该数据集广泛应用于社交媒体平台、在线论坛及即时通讯工具的文本审核系统中，通过高效的词汇匹配算法，自动识别并屏蔽含有冒犯性语言的用户生成内容。其经典使用场景包括构建实时聊天过滤器、评论审核引擎以及社区内容管理工具，有效维护了数字空间的文明交流环境。

衍生相关工作

围绕该数据集，衍生出多项经典研究工作。例如，基于该词汇列表的越南语冒犯性文本分类模型被提出，结合深度学习技术提升了检测精度；另有研究利用其构建越南语网络语言净化语料库，支持了语言社会学分析。此外，该数据集还启发了跨语言冒犯性词汇对比研究，促进了东南亚语言资源建设的学术合作。

数据集最近研究