five

SMS Spam Collection v.1

收藏
github2024-06-26 更新2024-06-30 收录
下载链接:
https://github.com/AYUSHSURYAVANSHI/SMS-Spam-Collection-NLP-Project
下载链接
链接失效反馈
官方服务:
资源简介:
SMS Spam Collection v.1(以下简称语料库)是一组标记为垃圾短信研究用途的短信消息集合。它包含5,574条英文短信,标记为合法(ham)或垃圾(spam)。

SMS Spam Collection v.1 (hereinafter referred to as the corpus) is a curated collection of SMS messages for spam-related research. It contains 5,574 English SMS messages, each labeled as either legitimate (ham) or spam.
创建时间:
2024-06-26
原始信息汇总

SMS Spam Collection v.1 数据集概述

描述

SMS Spam Collection v.1(以下简称语料库)是一组用于SMS垃圾邮件研究的标记短信集合。该语料库包含5,574条英文短信,标记为合法(ham)或垃圾邮件(spam)。

编译来源

该语料库从以下免费或免费用于研究的网络资源中收集:

  • 从Grumbletext网站手动提取的425条SMS垃圾邮件信息。Grumbletext是一个英国论坛,手机用户在此公开声称收到SMS垃圾邮件,大多数情况下没有报告收到的垃圾邮件内容。识别这些垃圾邮件文本是一项非常困难且耗时的任务,需要仔细扫描数百个网页。
  • 从Caroline Tag的博士论文中收集的450条SMS合法信息。
  • 从新加坡国立大学(NUS)SMS语料库(NSC)中提取的3,375条SMS合法信息。NSC是一个约10,000条合法信息的语料库,主要来自新加坡人,大部分来自新加坡国立大学的学生。这些信息由志愿者提供,并被告知他们的贡献将被公开。
  • 从José María Gómez Hidalgo创建的SMS Spam Corpus v.0.1 Big中提取的1,002条SMS合法信息和322条垃圾邮件信息。

统计数据

该语料库包含:

  • SMS Spam Collection v.1(文本文件:smsspamcollection)共有4,827条合法信息(86.6%)和747条垃圾邮件(13.4%)。

格式

文件每行包含一条信息。每行由两列组成:一列是标签(ham或spam),另一列是原始文本。例如:

ham 你在做什么?你好吗? ham 好的,只是在和你开玩笑... ham 不要这么早说...你已经知道了然后才说... ham 我的号码在卢顿0125698789,如果你在附近给我打电话!H* ham Siva在宿舍哈哈:-. ham 因为我刚才和darren出去购物,我打电话问他想要什么礼物。然后他开始猜我和谁在一起,最后他猜对了。 spam 免费消息:发送:CALL到号码:86888并领取您的奖励,现在从您的手机开始使用3小时通话时间!订阅6GBP/月包含3小时16停止?发送Stop spam 阳光问答!如果你能说出澳大利亚的首都,就可以赢得一台超级索尼DVD录像机!发送MQUIZ到82277。B spam 紧急!您的手机号码07808726822在2003年9月2日获得了L2,000奖金奖!这是我们第二次尝试联系您!拨打0871-872-9758 BOX95QU

注意:消息未按时间顺序排序。

使用

我们在这篇正在审阅的论文中对该语料库进行了全面研究。这项工作提供了多项统计数据、研究和多种机器学习方法的基线结果。

关于

该语料库由Tiago Agostinho de Almeida和José María Gómez Hidalgo收集。

我们感谢Dr. Min-Yen Kan及其团队提供NUS SMS语料库。

许可/免责声明

如果您发现该语料库有用,请在您的论文、研究等中引用之前的论文和网页:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/。

SMS Spam Collection v.1是免费提供的,但有限制:

  1. Tiago Agostinho de Almeida和José María Gómez Hidalgo拥有SMS Spam Collection v.1的版权。
  2. 无担保/风险自负。该语料库是免费提供的。因此,该语料库是“按原样”提供的,没有任何形式的担保,包括但不限于可销售性、适合特定目的或不侵权的担保。您对语料库的使用、分发、修改、复制和发布以及由此产生的任何衍生作品(统称为“您的语料库使用”)负全部责任。您对您的语料库使用承担全部风险。您同意赔偿并使版权持有人及其附属机构免受任何索赔的影响,这些索赔与您的语料库使用有关。
  3. 责任限制。在任何情况下,版权持有人或其附属机构或语料库贡献编辑均不对间接、特殊、偶然或后果性损害负责,包括但不限于商誉损失或其他任何商业损害或损失,即使已被告知可能发生此类损害,并且无论索赔是基于合同、侵权或其他法律或衡平法理论,与语料库、您的语料库使用或本许可协议有关。
搜集汇总
数据集介绍
main_image_url
构建方式
SMS Spam Collection v.1数据集的构建基于多源数据的整合,涵盖了从不同公开资源中提取的短信信息。具体而言,该数据集包括从Grumbletext网站手动提取的425条垃圾短信,以及从Caroline Tag的博士论文中收集的450条合法短信。此外,数据集还纳入了来自NUS SMS Corpus的3,375条合法短信,以及从José María Gómez Hidalgo创建的SMS Spam Corpus v.0.1 Big中提取的1,002条合法短信和322条垃圾短信。这些数据经过精心筛选和标注,确保了数据集的高质量和多样性。
特点
SMS Spam Collection v.1数据集的主要特点在于其广泛的数据来源和细致的标注。该数据集包含了5,574条短信,其中4,827条为合法短信(占86.6%),747条为垃圾短信(占13.4%)。每条短信均被明确标注为‘ham’(合法)或‘spam’(垃圾),且每条记录包含两列:标签和原始文本。这种结构化的数据格式便于机器学习模型的训练和评估,同时也为研究者提供了丰富的数据资源。
使用方法
SMS Spam Collection v.1数据集适用于多种自然语言处理和机器学习任务,尤其是垃圾短信检测。研究者可以直接下载数据集,并根据提供的格式进行数据预处理和模型训练。数据集的每条记录均包含标签和原始文本,便于直接应用于分类任务。此外,数据集的构建者和相关研究论文提供了详细的统计信息和基准结果,为研究者提供了参考和对比的基础。在使用数据集时,建议引用相关文献和数据集的官方页面,以确保学术诚信和数据来源的透明性。
背景与挑战
背景概述
SMS Spam Collection v.1(以下简称语料库)是由Tiago Agostinho de Almeida和José María Gómez Hidalgo共同创建的一个用于短信垃圾邮件研究的标记数据集。该数据集包含了5,574条英文短信,标记为合法(ham)或垃圾(spam)。该数据集的构建汇集了多个来源,包括Grumbletext网站的手动提取、Caroline Tag的博士论文、新加坡国立大学(NUS)的SMS语料库以及José María Gómez Hidalgo的早期工作。这些数据主要用于研究短信垃圾邮件过滤技术,为相关领域的研究提供了宝贵的资源。
当前挑战
SMS Spam Collection v.1在构建过程中面临了多个挑战。首先,从Grumbletext网站手动提取垃圾短信是一项耗时且复杂的任务,需要仔细扫描数百个网页。其次,数据集的多样性问题,尽管包含了多个来源的数据,但主要集中在英国和新加坡,可能限制了其在全球范围内的适用性。此外,数据集的标签不平衡问题也是一个挑战,其中合法短信占86.6%,而垃圾短信仅占13.4%,这可能导致模型在处理垃圾短信时表现不佳。最后,数据集的隐私问题也需考虑,因为部分数据来自志愿者的贡献,确保数据使用的合规性至关重要。
常用场景
经典使用场景
SMS Spam Collection v.1数据集在自然语言处理领域中被广泛应用于垃圾短信检测任务。通过分析数据集中标记为‘ham’(合法)和‘spam’(垃圾)的短信,研究人员可以开发和验证各种机器学习模型,以识别和过滤垃圾短信。这一经典场景不仅有助于提升短信服务的用户体验,还能有效减少用户因垃圾短信而遭受的骚扰和潜在的欺诈风险。
解决学术问题
该数据集解决了自然语言处理领域中垃圾短信检测的核心问题。通过提供大量标记数据,它为研究人员提供了一个标准化的基准,用于评估和比较不同算法的性能。这不仅推动了文本分类技术的发展,还为研究如何更有效地识别和过滤垃圾短信提供了宝贵的资源。此外,该数据集的公开使用促进了跨学科的合作,使得更多研究者能够参与到这一重要问题的解决中来。
衍生相关工作
基于SMS Spam Collection v.1数据集,许多相关研究工作得以展开。例如,研究人员开发了多种基于机器学习和深度学习的垃圾短信检测模型,这些模型在准确性和效率上都有显著提升。此外,该数据集还启发了对多语言垃圾短信检测的研究,推动了跨语言文本分类技术的发展。这些衍生工作不仅丰富了垃圾短信检测的理论基础,还为实际应用提供了更多有效的解决方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作