five

codesignal/sms-spam-collection

收藏
Hugging Face2024-03-18 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/codesignal/sms-spam-collection
下载链接
链接失效反馈
官方服务:
资源简介:
SMS Spam Collection v.1数据集是一组用于短信垃圾邮件研究的标记短信集合。它包含5,574条英文短信,标记为ham(合法)或spam(垃圾短信)。数据来源于多个公开的研究资源,包括Grumbletext网站、Caroline Tag的博士论文、NUS SMS Corpus和SMS Spam Corpus v.0.1 Big。数据集包含4,827条合法短信和747条垃圾短信,每条短信以一行表示,包含标签和原始文本。

The SMS Spam Collection v.1 is a labeled collection of short message service (SMS) messages dedicated to SMS spam research. It comprises 5,574 English SMS messages, annotated as either ham (legitimate) or spam (unsolicited junk SMS). This dataset is derived from multiple publicly available research resources, including the Grumbletext website, Caroline Tag’s doctoral dissertation, the NUS SMS Corpus, and the SMS Spam Corpus v.0.1 Big. It contains 4,827 legitimate SMS messages and 747 spam SMS messages, with each message presented on a single line that includes both its label and original text.
提供机构:
codesignal
原始信息汇总

数据集概述

数据集名称

  • 名称: SMS Spam Collection v.1
  • 别名: 短信垃圾邮件收集

数据集描述

  • 内容: 包含5,574条英文短信,标记为正常(ham)或垃圾邮件(spam)。
  • 来源:
    • 425条垃圾短信来自Grumbletext网站。
    • 450条正常短信来自Caroline Tag的博士论文。
    • 3,375条正常短信来自NUS SMS Corpus。
    • 1,002条正常短信和322条垃圾短信来自SMS Spam Corpus v.0.1 Big。

数据集统计

  • 总数: 5,574条短信
  • 分类:
    • 正常短信: 4,827条(86.6%)
    • 垃圾短信: 747条(13.4%)

数据集格式

  • 文件结构: 每行一条短信,包含标签(ham或spam)和原始文本。
  • 示例:
    • ham What you doing?how are you?
    • spam FreeMsg: Txt: CALL to No: 86888 & claim your reward of 3 hours talk time to use from your phone now! ubscribe6GBP/ mnth inc 3hrs 16 stop?txtStop

许可证

  • 许可证: CC-BY-4.0

语言

  • 语言: 英语

大小分类

  • 大小: 1K<n<10K
搜集汇总
数据集介绍
main_image_url
构建方式
SMS Spam Collection v.1 数据集的构建,源于对多种来源的英语短信进行汇编,包括从Grumbletext网站手动提取的425条垃圾短信,Caroline Tag博士论文中的450条正常短信,新加坡国立大学计算机科学系的约10,000条合法短信中的3,375条,以及来自SMS Spam Corpus v.0.1 Big的1,002条正常短信和322条垃圾短信。这些短信经过精心筛选和整合,形成了一个包含5,574条短信的数据集,其中86.6%为正常短信,13.4%为垃圾短信。
特点
该数据集的特点在于其来源的多样性和对垃圾短信与正常短信的明确标注。短信内容未经时间排序,真实反映了用户的通讯习惯。此外,数据集以文本文件形式存在,每行包含一个短信,以标签(ham或spam)和原始文本构成的两列格式排列,便于进行机器学习和文本分析研究。
使用方法
使用SMS Spam Collection v.1数据集,研究者可以依据数据集提供的文本和标签,进行垃圾短信过滤的研究和模型训练。数据集的使用不受限制,但建议在使用时引用相关论文和网页,并在使用过程中自行承担风险。此外,如有研究成果,建议通知数据集的版权持有者,以促进学术交流和知识共享。
背景与挑战
背景概述
在短信通讯日益普及的背景下,垃圾短信(Spam)的识别与过滤成为了一个重要的研究领域。SMS Spam Collection v.1数据集应运而生,它是一组为研究短信垃圾信息而收集的英文短信集合,共计5574条短信,每条短信标注为正常(Ham)或垃圾(Spam)。该数据集由Tiago Agostinho de Almeida和José María Gómez Hidalgo于2011年整理,主要来源于多个网络资源,包括Grumbletext论坛、Caroline Tag的博士论文以及National University of Singapore的NUS SMS Corpus。此数据集的构建旨在推动短信垃圾信息过滤技术的研究,对自然语言处理和机器学习领域产生了重要影响。
当前挑战
该数据集的构建面临诸多挑战,首先,垃圾短信的识别需要人工从大量论坛投诉中筛选,这是一项耗时且难度较大的任务。其次,构建过程中需处理来自不同来源的数据,包括个人发布的信息和学生志愿者的贡献,这些数据的多样性和非结构化特性增加了数据清洗和标注的复杂性。此外,数据集在标注准确性和代表性方面也存在着一定的挑战,这要求研究人员在利用该数据集时,必须仔细考量其适用性和局限性。
常用场景
经典使用场景
在信息传播日益依赖移动通信的今天,短信垃圾信息的识别与过滤成为研究的热点。SMS Spam Collection数据集为此领域的研究提供了丰富的实验材料。该数据集的经典使用场景在于构建文本分类模型,用以区分正常短信与垃圾短信,从而为短信过滤系统提供算法支持。
衍生相关工作
基于SMS Spam Collection数据集,衍生出了一系列相关工作,如文本分类算法改进、情感分析、及用户行为研究等。这些工作进一步推动了短信处理技术的进步,为移动通信领域的研究与发展贡献了重要力量。
数据集最近研究
最新研究方向
在自然语言处理与机器学习领域中,短消息垃圾邮件检测作为文本分类的一个重要应用,正日益受到研究者的关注。SMS Spam Collection数据集为此领域提供了一个宝贵的资源,包含5574条英文短信,分为正常短信(ham)与垃圾短信(spam)两大类。近期研究集中于深度学习模型的构建与应用,如卷积神经网络和循环神经网络,旨在提高分类的准确性和效率。此外,也有研究者探索结合上下文信息的长期记忆模型,以应对短信内容的不规则性和多义性。这些研究不仅为垃圾短信的自动识别提供了新思路,也进一步推动了短信内容分析技术的发展,对于通信安全与用户体验具有显著影响和意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作