codesignal/sms-spam-collection

Name: codesignal/sms-spam-collection
Creator: codesignal
Published: 2024-03-18 23:14:07
License: 暂无描述

Hugging Face2024-03-18 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/codesignal/sms-spam-collection

下载链接

链接失效反馈

官方服务：

资源简介：

SMS Spam Collection v.1数据集是一组用于短信垃圾邮件研究的标记短信集合。它包含5,574条英文短信，标记为ham（合法）或spam（垃圾短信）。数据来源于多个公开的研究资源，包括Grumbletext网站、Caroline Tag的博士论文、NUS SMS Corpus和SMS Spam Corpus v.0.1 Big。数据集包含4,827条合法短信和747条垃圾短信，每条短信以一行表示，包含标签和原始文本。

The SMS Spam Collection v.1 is a labeled collection of short message service (SMS) messages dedicated to SMS spam research. It comprises 5,574 English SMS messages, annotated as either ham (legitimate) or spam (unsolicited junk SMS). This dataset is derived from multiple publicly available research resources, including the Grumbletext website, Caroline Tag’s doctoral dissertation, the NUS SMS Corpus, and the SMS Spam Corpus v.0.1 Big. It contains 4,827 legitimate SMS messages and 747 spam SMS messages, with each message presented on a single line that includes both its label and original text.

提供机构：

codesignal

原始信息汇总

数据集概述

数据集名称

名称: SMS Spam Collection v.1
别名: 短信垃圾邮件收集

数据集描述

内容: 包含5,574条英文短信，标记为正常（ham）或垃圾邮件（spam）。
来源:
- 425条垃圾短信来自Grumbletext网站。
- 450条正常短信来自Caroline Tag的博士论文。
- 3,375条正常短信来自NUS SMS Corpus。
- 1,002条正常短信和322条垃圾短信来自SMS Spam Corpus v.0.1 Big。

数据集统计

总数: 5,574条短信
分类:
- 正常短信: 4,827条（86.6%）
- 垃圾短信: 747条（13.4%）

数据集格式

文件结构: 每行一条短信，包含标签（ham或spam）和原始文本。
示例:
- ham What you doing?how are you?
- spam FreeMsg: Txt: CALL to No: 86888 & claim your reward of 3 hours talk time to use from your phone now! ubscribe6GBP/ mnth inc 3hrs 16 stop?txtStop

许可证

许可证: CC-BY-4.0

语言

语言: 英语

大小分类

大小: 1K<n<10K

搜集汇总

数据集介绍

构建方式

SMS Spam Collection v.1 数据集的构建，源于对多种来源的英语短信进行汇编，包括从Grumbletext网站手动提取的425条垃圾短信，Caroline Tag博士论文中的450条正常短信，新加坡国立大学计算机科学系的约10,000条合法短信中的3,375条，以及来自SMS Spam Corpus v.0.1 Big的1,002条正常短信和322条垃圾短信。这些短信经过精心筛选和整合，形成了一个包含5,574条短信的数据集，其中86.6%为正常短信，13.4%为垃圾短信。

特点

该数据集的特点在于其来源的多样性和对垃圾短信与正常短信的明确标注。短信内容未经时间排序，真实反映了用户的通讯习惯。此外，数据集以文本文件形式存在，每行包含一个短信，以标签（ham或spam）和原始文本构成的两列格式排列，便于进行机器学习和文本分析研究。

使用方法

使用SMS Spam Collection v.1数据集，研究者可以依据数据集提供的文本和标签，进行垃圾短信过滤的研究和模型训练。数据集的使用不受限制，但建议在使用时引用相关论文和网页，并在使用过程中自行承担风险。此外，如有研究成果，建议通知数据集的版权持有者，以促进学术交流和知识共享。

背景与挑战

背景概述

在短信通讯日益普及的背景下，垃圾短信（Spam）的识别与过滤成为了一个重要的研究领域。SMS Spam Collection v.1数据集应运而生，它是一组为研究短信垃圾信息而收集的英文短信集合，共计5574条短信，每条短信标注为正常（Ham）或垃圾（Spam）。该数据集由Tiago Agostinho de Almeida和José María Gómez Hidalgo于2011年整理，主要来源于多个网络资源，包括Grumbletext论坛、Caroline Tag的博士论文以及National University of Singapore的NUS SMS Corpus。此数据集的构建旨在推动短信垃圾信息过滤技术的研究，对自然语言处理和机器学习领域产生了重要影响。

当前挑战

该数据集的构建面临诸多挑战，首先，垃圾短信的识别需要人工从大量论坛投诉中筛选，这是一项耗时且难度较大的任务。其次，构建过程中需处理来自不同来源的数据，包括个人发布的信息和学生志愿者的贡献，这些数据的多样性和非结构化特性增加了数据清洗和标注的复杂性。此外，数据集在标注准确性和代表性方面也存在着一定的挑战，这要求研究人员在利用该数据集时，必须仔细考量其适用性和局限性。

常用场景

经典使用场景

在信息传播日益依赖移动通信的今天，短信垃圾信息的识别与过滤成为研究的热点。SMS Spam Collection数据集为此领域的研究提供了丰富的实验材料。该数据集的经典使用场景在于构建文本分类模型，用以区分正常短信与垃圾短信，从而为短信过滤系统提供算法支持。

衍生相关工作

基于SMS Spam Collection数据集，衍生出了一系列相关工作，如文本分类算法改进、情感分析、及用户行为研究等。这些工作进一步推动了短信处理技术的进步，为移动通信领域的研究与发展贡献了重要力量。

数据集最近研究