SMS Spam Collection v.1

github2024-06-26 更新2024-06-30 收录

下载链接：

https://github.com/AYUSHSURYAVANSHI/SMS-Spam-Collection-NLP-Project

下载链接

链接失效反馈

官方服务：

资源简介：

SMS Spam Collection v.1（以下简称语料库）是一组标记为垃圾短信研究用途的短信消息集合。它包含5,574条英文短信，标记为合法（ham）或垃圾（spam）。

SMS Spam Collection v.1 (hereinafter referred to as the corpus) is a curated collection of SMS messages for spam-related research. It contains 5,574 English SMS messages, each labeled as either legitimate (ham) or spam.

创建时间：

2024-06-26

原始信息汇总

SMS Spam Collection v.1 数据集概述

描述

SMS Spam Collection v.1（以下简称语料库）是一组用于SMS垃圾邮件研究的标记短信集合。该语料库包含5,574条英文短信，标记为合法（ham）或垃圾邮件（spam）。

编译来源

该语料库从以下免费或免费用于研究的网络资源中收集：

从Grumbletext网站手动提取的425条SMS垃圾邮件信息。Grumbletext是一个英国论坛，手机用户在此公开声称收到SMS垃圾邮件，大多数情况下没有报告收到的垃圾邮件内容。识别这些垃圾邮件文本是一项非常困难且耗时的任务，需要仔细扫描数百个网页。
从Caroline Tag的博士论文中收集的450条SMS合法信息。
从新加坡国立大学（NUS）SMS语料库（NSC）中提取的3,375条SMS合法信息。NSC是一个约10,000条合法信息的语料库，主要来自新加坡人，大部分来自新加坡国立大学的学生。这些信息由志愿者提供，并被告知他们的贡献将被公开。
从José María Gómez Hidalgo创建的SMS Spam Corpus v.0.1 Big中提取的1,002条SMS合法信息和322条垃圾邮件信息。

统计数据

该语料库包含：

SMS Spam Collection v.1（文本文件：smsspamcollection）共有4,827条合法信息（86.6%）和747条垃圾邮件（13.4%）。

格式

文件每行包含一条信息。每行由两列组成：一列是标签（ham或spam），另一列是原始文本。例如：

ham 你在做什么？你好吗？ ham 好的，只是在和你开玩笑... ham 不要这么早说...你已经知道了然后才说... ham 我的号码在卢顿0125698789，如果你在附近给我打电话！H* ham Siva在宿舍哈哈:-. ham 因为我刚才和darren出去购物，我打电话问他想要什么礼物。然后他开始猜我和谁在一起，最后他猜对了。 spam 免费消息：发送：CALL到号码：86888并领取您的奖励，现在从您的手机开始使用3小时通话时间！订阅6GBP/月包含3小时16停止？发送Stop spam 阳光问答！如果你能说出澳大利亚的首都，就可以赢得一台超级索尼DVD录像机！发送MQUIZ到82277。B spam 紧急！您的手机号码07808726822在2003年9月2日获得了L2,000奖金奖！这是我们第二次尝试联系您！拨打0871-872-9758 BOX95QU

注意：消息未按时间顺序排序。

使用

我们在这篇正在审阅的论文中对该语料库进行了全面研究。这项工作提供了多项统计数据、研究和多种机器学习方法的基线结果。

关于

该语料库由Tiago Agostinho de Almeida和José María Gómez Hidalgo收集。

我们感谢Dr. Min-Yen Kan及其团队提供NUS SMS语料库。

许可/免责声明

如果您发现该语料库有用，请在您的论文、研究等中引用之前的论文和网页：http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/。

SMS Spam Collection v.1是免费提供的，但有限制：

Tiago Agostinho de Almeida和José María Gómez Hidalgo拥有SMS Spam Collection v.1的版权。
无担保/风险自负。该语料库是免费提供的。因此，该语料库是“按原样”提供的，没有任何形式的担保，包括但不限于可销售性、适合特定目的或不侵权的担保。您对语料库的使用、分发、修改、复制和发布以及由此产生的任何衍生作品（统称为“您的语料库使用”）负全部责任。您对您的语料库使用承担全部风险。您同意赔偿并使版权持有人及其附属机构免受任何索赔的影响，这些索赔与您的语料库使用有关。
责任限制。在任何情况下，版权持有人或其附属机构或语料库贡献编辑均不对间接、特殊、偶然或后果性损害负责，包括但不限于商誉损失或其他任何商业损害或损失，即使已被告知可能发生此类损害，并且无论索赔是基于合同、侵权或其他法律或衡平法理论，与语料库、您的语料库使用或本许可协议有关。

搜集汇总

数据集介绍

构建方式

SMS Spam Collection v.1数据集的构建基于多源数据的整合，涵盖了从不同公开资源中提取的短信信息。具体而言，该数据集包括从Grumbletext网站手动提取的425条垃圾短信，以及从Caroline Tag的博士论文中收集的450条合法短信。此外，数据集还纳入了来自NUS SMS Corpus的3,375条合法短信，以及从José María Gómez Hidalgo创建的SMS Spam Corpus v.0.1 Big中提取的1,002条合法短信和322条垃圾短信。这些数据经过精心筛选和标注，确保了数据集的高质量和多样性。

特点

SMS Spam Collection v.1数据集的主要特点在于其广泛的数据来源和细致的标注。该数据集包含了5,574条短信，其中4,827条为合法短信（占86.6%），747条为垃圾短信（占13.4%）。每条短信均被明确标注为‘ham’（合法）或‘spam’（垃圾），且每条记录包含两列：标签和原始文本。这种结构化的数据格式便于机器学习模型的训练和评估，同时也为研究者提供了丰富的数据资源。

使用方法

SMS Spam Collection v.1数据集适用于多种自然语言处理和机器学习任务，尤其是垃圾短信检测。研究者可以直接下载数据集，并根据提供的格式进行数据预处理和模型训练。数据集的每条记录均包含标签和原始文本，便于直接应用于分类任务。此外，数据集的构建者和相关研究论文提供了详细的统计信息和基准结果，为研究者提供了参考和对比的基础。在使用数据集时，建议引用相关文献和数据集的官方页面，以确保学术诚信和数据来源的透明性。

背景与挑战

背景概述

SMS Spam Collection v.1（以下简称语料库）是由Tiago Agostinho de Almeida和José María Gómez Hidalgo共同创建的一个用于短信垃圾邮件研究的标记数据集。该数据集包含了5,574条英文短信，标记为合法（ham）或垃圾（spam）。该数据集的构建汇集了多个来源，包括Grumbletext网站的手动提取、Caroline Tag的博士论文、新加坡国立大学（NUS）的SMS语料库以及José María Gómez Hidalgo的早期工作。这些数据主要用于研究短信垃圾邮件过滤技术，为相关领域的研究提供了宝贵的资源。

当前挑战

SMS Spam Collection v.1在构建过程中面临了多个挑战。首先，从Grumbletext网站手动提取垃圾短信是一项耗时且复杂的任务，需要仔细扫描数百个网页。其次，数据集的多样性问题，尽管包含了多个来源的数据，但主要集中在英国和新加坡，可能限制了其在全球范围内的适用性。此外，数据集的标签不平衡问题也是一个挑战，其中合法短信占86.6%，而垃圾短信仅占13.4%，这可能导致模型在处理垃圾短信时表现不佳。最后，数据集的隐私问题也需考虑，因为部分数据来自志愿者的贡献，确保数据使用的合规性至关重要。

常用场景

经典使用场景

SMS Spam Collection v.1数据集在自然语言处理领域中被广泛应用于垃圾短信检测任务。通过分析数据集中标记为‘ham’（合法）和‘spam’（垃圾）的短信，研究人员可以开发和验证各种机器学习模型，以识别和过滤垃圾短信。这一经典场景不仅有助于提升短信服务的用户体验，还能有效减少用户因垃圾短信而遭受的骚扰和潜在的欺诈风险。

解决学术问题

该数据集解决了自然语言处理领域中垃圾短信检测的核心问题。通过提供大量标记数据，它为研究人员提供了一个标准化的基准，用于评估和比较不同算法的性能。这不仅推动了文本分类技术的发展，还为研究如何更有效地识别和过滤垃圾短信提供了宝贵的资源。此外，该数据集的公开使用促进了跨学科的合作，使得更多研究者能够参与到这一重要问题的解决中来。

衍生相关工作

基于SMS Spam Collection v.1数据集，许多相关研究工作得以展开。例如，研究人员开发了多种基于机器学习和深度学习的垃圾短信检测模型，这些模型在准确性和效率上都有显著提升。此外，该数据集还启发了对多语言垃圾短信检测的研究，推动了跨语言文本分类技术的发展。这些衍生工作不仅丰富了垃圾短信检测的理论基础，还为实际应用提供了更多有效的解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集