Nirmol

github2024-05-05 更新2024-05-31 收录

下载链接：

https://github.com/Sigmakib2/Nirmol

下载链接

链接失效反馈

官方服务：

资源简介：

Nirmol是一个用于检测孟加拉语俚语的开放源代码数据集和API。它帮助开发者和研究人员识别孟加拉语/孟加拉文/孟加拉英语句子中的攻击性/不良/俚语词汇。

Nirmol is an open-source dataset and API designed for detecting Bengali slang. It assists developers and researchers in identifying offensive/inappropriate/slang terms within Bengali/Bangla/Bengali-English sentences.

创建时间：

2024-03-04

原始信息汇总

数据集概述

数据集名称

Nirmol

数据集用途

用于检测Bangla/Bengali/Banglish句子中的攻击性/不良/俚语词汇。

数据集下载链接

Direct dataset link

数据集文件

Nirmol-v1-dataset.csv

数据集更新

用户可以通过编辑input.txt文件来更新攻击性词汇列表，并通过txt-2-nirmol.js脚本将更新后的文本文件转换为nirmol.json文件。

数据集来源

Bengali-Hate-Speech-Dataset：链接
BNLexicon：链接
BAAD: A Multipurpose Dataset for Automatic Bangla Offensive Speech Recognition：链接

数据集相关技术

Node.js
Express.js

数据集相关文件

input.txt：包含所有攻击性/不良/俚语词汇的文本文件。
nirmol.json：结构化数据文件，与input.txt内容相同。
txt-2-nirmol.js：用于将input.txt转换为nirmol.json的Node.js脚本。

数据集操作指南

编辑input.txt文件以更新词汇列表。
使用txt-2-nirmol.js脚本转换更新后的文本文件为nirmol.json。
验证nirmol.json文件以确保更新正确。

搜集汇总

数据集介绍

构建方式

Nirmol数据集的构建基于对多种来源的孟加拉语、孟加拉语混合英语（Banglish）以及含有特殊符号和表情符号的文本进行分析。该数据集通过整合多个公开的孟加拉语仇恨言论数据集（如Bengali-Hate-Speech-Dataset、BNLexicon和BAAD数据集），并结合自定义的文本处理脚本（如txt-2-nirmol.js），将原始文本数据转换为结构化的JSON格式（nirmol.json）。这一过程不仅涵盖了基本的词汇识别，还引入了对特殊符号和表情符号的忽略机制，确保了数据集在处理复杂文本时的鲁棒性。

特点

Nirmol数据集的显著特点在于其对孟加拉语和Banglish文本的广泛覆盖，以及对特殊符号和表情符号的智能处理。该数据集不仅能够识别常规的仇恨言论词汇，还能通过前缀和后缀的识别机制，检测出隐藏在复杂结构中的负面词汇。此外，数据集的构建过程中引入了对特殊符号的忽略机制，使得AI系统在面对带有特殊符号的文本时仍能有效识别其中的仇恨言论。

使用方法

Nirmol数据集可用于训练和评估针对孟加拉语和Banglish文本的仇恨言论检测模型。用户可以通过GitHub仓库下载数据集，并使用Node.js环境下的txt-2-nirmol.js脚本将文本文件转换为JSON格式。数据集的API接口支持GET和POST请求，用户可以通过这些接口对输入的句子进行实时检测，并获取包含负面词汇的列表及其比例。此外，用户还可以通过编辑input.txt文件并运行txt-2-nirmol.js脚本，轻松更新数据集中的词汇列表。

背景与挑战

背景概述

Nirmol数据集是由Sigmakib2团队开发的一个基于微服务的攻击性语言检测API，旨在识别孟加拉语、孟加拉语和Banglish句子中的攻击性/不良/俚语词汇。该数据集的创建源于对孟加拉语在线对话中保持清洁和尊重的需求，尤其是在社交媒体和在线交流中，攻击性语言的泛滥成为一个日益严重的问题。Nirmol的开发不仅为孟加拉语社区提供了一个有效的工具，还为机器学习和人工智能模型训练提供了宝贵的数据资源。通过整合来自多个来源的攻击性词汇数据，Nirmol数据集为研究人员和开发者提供了一个标准化的资源，以进一步推动攻击性语言检测技术的发展。

当前挑战

Nirmol数据集在构建过程中面临了多个挑战。首先，孟加拉语作为一种复杂的语言，其词汇和语法结构使得攻击性词汇的识别变得困难。此外，网络上的特殊符号和表情符号的使用增加了词汇识别的复杂性，因为这些符号可能会掩盖实际的攻击性内容。另一个挑战是如何有效地更新和维护数据集，以确保其能够及时反映语言使用中的变化。最后，数据集的构建还需要考虑如何处理包含特殊字符的句子，以避免API在处理这些句子时出现错误。这些挑战不仅影响了数据集的构建过程，也对其在实际应用中的有效性提出了更高的要求。

常用场景

经典使用场景

Nirmol数据集的经典使用场景主要集中在对孟加拉语、孟加拉语混合英语（Banglish）等语言中的冒犯性语言进行检测。该数据集通过提供丰富的冒犯性词汇和短语，支持构建高效的机器学习模型，用于自动识别和过滤社交媒体、在线论坛等平台中的不当言论。其核心功能在于能够识别包含特殊符号或表情符号的冒犯性词汇，从而提升检测的准确性和鲁棒性。

解决学术问题

Nirmol数据集解决了多语言环境下冒犯性语言检测的学术难题。传统的冒犯性语言检测模型往往难以应对包含特殊符号和表情符号的文本，而Nirmol通过其独特的处理机制，有效提升了模型对这些复杂文本的识别能力。此外，该数据集还为研究者提供了丰富的标注数据，推动了多语言冒犯性语言检测领域的研究进展，具有重要的学术价值。

衍生相关工作

基于Nirmol数据集，研究者们开发了多种相关的经典工作。例如，有研究者利用该数据集构建了多语言冒犯性语言检测模型，进一步提升了模型在不同语言环境下的泛化能力。此外，还有研究者通过分析Nirmol数据集中的词汇特征，提出了新的冒犯性语言检测算法，显著提高了检测的准确率。这些衍生工作不仅丰富了冒犯性语言检测领域的研究内容，也为实际应用提供了强有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集