Chichewa SMS fraud detection dataset

Name: Chichewa SMS fraud detection dataset
Creator: 马拉维大学商学院
Published: 2025-02-24 16:17:54
License: 暂无描述

arXiv2025-02-24 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.16947v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是首个针对Chichewa语言短信欺诈检测的公开数据集，由马拉维大学商学院Kuyesera AI实验室创建。数据集通过众包方式收集，包含了一部分年轻人群体的短信样本，并采用了标签保留文本变换技术进行数据增强。数据集还被翻译成英文，用于机器学习分类实验。该数据集旨在帮助理解和防止Chichewa语言短信欺诈，并为开发特定语言模型提供了基础。

This is the first public dataset for Chichewa-language SMS fraud detection, created by the Kuyesera AI Lab at the University of Malawi's Business School. The dataset was collected via crowdsourcing, contains SMS samples from a subset of young people, and utilized label-preserving text transformation techniques for data augmentation. It has also been translated into English for machine learning classification experiments. This dataset aims to facilitate the understanding and prevention of Chichewa-language SMS fraud, and provides a foundation for the development of language-specific models.

提供机构：

马拉维大学商学院

创建时间：

2025-02-24

搜集汇总

数据集介绍

构建方式

Chichewa SMS fraud detection dataset的构建方式主要是通过在马拉维的Blantyre城市收集年轻人口段的SMS，并应用标签保留的文本转换来增加数据集的大小。此外，该数据集还通过人工翻译和机器翻译的方式被翻译成英语，以供研究使用。

特点

Chichewa SMS fraud detection dataset的特点是它包含了马拉维广泛使用的Chichewa语言的SMS，这使得该数据集对于研究SMS欺诈检测具有重要意义。此外，该数据集还包含了大量欺诈性SMS，这对于训练和测试机器学习分类算法非常有利。

使用方法

Chichewa SMS fraud detection dataset的使用方法主要是通过机器学习算法进行SMS欺诈检测。研究人员可以利用该数据集训练和测试机器学习模型，以区分欺诈性SMS和正常SMS。此外，该数据集还可以用于研究SMS欺诈检测的算法优化和性能提升。

背景与挑战

背景概述

随着移动通信技术的普及，短信诈骗已成为全球关注的焦点。尤其是在那些互联网接入仍然有限的地区，短信服务仍然是通信的关键部分。在马拉维，奇切瓦语是最广泛使用的语言，然而，针对奇切瓦语的短信诈骗检测研究却相对匮乏。Amelia Taylor和Amoss Robert在2025年1月于马尔维的马拉维大学商业与应用科学大学Kuyesera AI实验室创建了一个奇切瓦语短信诈骗检测数据集。该数据集旨在解决如何为奇切瓦语短信开发机器学习分类模型的问题，并通过收集来自马拉维布兰太尔市年轻人群的短信数据，应用标签保留的文本转换技术增加数据集大小，并将扩大后的数据集翻译成英语进行实验。该数据集的创建填补了奇切瓦语短信诈骗检测领域的空白，对相关领域的研究具有深远的影响。

当前挑战

奇切瓦语短信诈骗检测数据集的创建和利用面临着诸多挑战。首先，所解决的领域问题是奇切瓦语短信诈骗检测，这是一个新兴的研究领域，需要更多的研究和实践。其次，在构建过程中，研究人员遇到了奇切瓦语作为一种低资源语言的挑战，缺乏足够的自然语言处理工具。此外，数据预处理对于多语言或跨语言的自然语言处理任务至关重要，特别是在依赖机器翻译文本训练机器学习模型时。最后，研究人员还需要探索如何开发针对特定语言的模型，以优化准确性和性能。

常用场景

经典使用场景

在非洲地区，特别是马拉维，短信诈骗是一个日益严重的问题。Chichewa SMS fraud detection dataset 的建立为机器学习模型提供了一个用于训练和验证的分类器，旨在识别和预防以奇切瓦语编写的诈骗短信。该数据集的经典使用场景包括构建和测试机器学习分类算法，这些算法可以有效地将奇切瓦语短信分为诈骗或非诈骗类别，从而帮助网络提供商和用户识别和拦截潜在的欺诈性短信。

实际应用

Chichewa SMS fraud detection dataset 的实际应用场景包括网络提供商和用户用于检测和拦截潜在的欺诈性短信。此外，该数据集还可以用于开发短信诈骗检测应用程序，这些应用程序可以安装在智能手机上，并利用短信内容和发送者信息来决定短信是否为诈骗。此外，该数据集还可以用于提高公众对短信诈骗的认识，并帮助制定政策来打击短信诈骗。

衍生相关工作

Chichewa SMS fraud detection dataset 衍生了许多相关的经典工作，包括开发特定语言的机器学习模型、探索数据增强和特征提取技术，以及实验更复杂的机器学习模型，包括深度学习架构。此外，该数据集还促进了与其他低资源语言数据集的比较研究，以了解不同语言环境下短信诈骗的特点和趋势。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集