five

SMS Spam Collection v.1|垃圾短信识别数据集|数据分析数据集

收藏
github2024-06-26 更新2024-06-30 收录
垃圾短信识别
数据分析
下载链接:
https://github.com/AYUSHSURYAVANSHI/SMS-Spam-Collection-NLP-Project
下载链接
链接失效反馈
资源简介:
SMS Spam Collection v.1(以下简称语料库)是一组标记为垃圾短信研究用途的短信消息集合。它包含5,574条英文短信,标记为合法(ham)或垃圾(spam)。
创建时间:
2024-06-26
原始信息汇总

SMS Spam Collection v.1 数据集概述

描述

SMS Spam Collection v.1(以下简称语料库)是一组用于SMS垃圾邮件研究的标记短信集合。该语料库包含5,574条英文短信,标记为合法(ham)或垃圾邮件(spam)。

编译来源

该语料库从以下免费或免费用于研究的网络资源中收集:

  • 从Grumbletext网站手动提取的425条SMS垃圾邮件信息。Grumbletext是一个英国论坛,手机用户在此公开声称收到SMS垃圾邮件,大多数情况下没有报告收到的垃圾邮件内容。识别这些垃圾邮件文本是一项非常困难且耗时的任务,需要仔细扫描数百个网页。
  • 从Caroline Tag的博士论文中收集的450条SMS合法信息。
  • 从新加坡国立大学(NUS)SMS语料库(NSC)中提取的3,375条SMS合法信息。NSC是一个约10,000条合法信息的语料库,主要来自新加坡人,大部分来自新加坡国立大学的学生。这些信息由志愿者提供,并被告知他们的贡献将被公开。
  • 从José María Gómez Hidalgo创建的SMS Spam Corpus v.0.1 Big中提取的1,002条SMS合法信息和322条垃圾邮件信息。

统计数据

该语料库包含:

  • SMS Spam Collection v.1(文本文件:smsspamcollection)共有4,827条合法信息(86.6%)和747条垃圾邮件(13.4%)。

格式

文件每行包含一条信息。每行由两列组成:一列是标签(ham或spam),另一列是原始文本。例如:

ham 你在做什么?你好吗? ham 好的,只是在和你开玩笑... ham 不要这么早说...你已经知道了然后才说... ham 我的号码在卢顿0125698789,如果你在附近给我打电话!H* ham Siva在宿舍哈哈:-. ham 因为我刚才和darren出去购物,我打电话问他想要什么礼物。然后他开始猜我和谁在一起,最后他猜对了。 spam 免费消息:发送:CALL到号码:86888并领取您的奖励,现在从您的手机开始使用3小时通话时间!订阅6GBP/月包含3小时16停止?发送Stop spam 阳光问答!如果你能说出澳大利亚的首都,就可以赢得一台超级索尼DVD录像机!发送MQUIZ到82277。B spam 紧急!您的手机号码07808726822在2003年9月2日获得了L2,000奖金奖!这是我们第二次尝试联系您!拨打0871-872-9758 BOX95QU

注意:消息未按时间顺序排序。

使用

我们在这篇正在审阅的论文中对该语料库进行了全面研究。这项工作提供了多项统计数据、研究和多种机器学习方法的基线结果。

关于

该语料库由Tiago Agostinho de Almeida和José María Gómez Hidalgo收集。

我们感谢Dr. Min-Yen Kan及其团队提供NUS SMS语料库。

许可/免责声明

如果您发现该语料库有用,请在您的论文、研究等中引用之前的论文和网页:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/。

SMS Spam Collection v.1是免费提供的,但有限制:

  1. Tiago Agostinho de Almeida和José María Gómez Hidalgo拥有SMS Spam Collection v.1的版权。
  2. 无担保/风险自负。该语料库是免费提供的。因此,该语料库是“按原样”提供的,没有任何形式的担保,包括但不限于可销售性、适合特定目的或不侵权的担保。您对语料库的使用、分发、修改、复制和发布以及由此产生的任何衍生作品(统称为“您的语料库使用”)负全部责任。您对您的语料库使用承担全部风险。您同意赔偿并使版权持有人及其附属机构免受任何索赔的影响,这些索赔与您的语料库使用有关。
  3. 责任限制。在任何情况下,版权持有人或其附属机构或语料库贡献编辑均不对间接、特殊、偶然或后果性损害负责,包括但不限于商誉损失或其他任何商业损害或损失,即使已被告知可能发生此类损害,并且无论索赔是基于合同、侵权或其他法律或衡平法理论,与语料库、您的语料库使用或本许可协议有关。
AI搜集汇总
数据集介绍
main_image_url
构建方式
SMS Spam Collection v.1数据集的构建基于多源数据的整合,涵盖了从不同公开资源中提取的短信信息。具体而言,该数据集包括从Grumbletext网站手动提取的425条垃圾短信,以及从Caroline Tag的博士论文中收集的450条合法短信。此外,数据集还纳入了来自NUS SMS Corpus的3,375条合法短信,以及从José María Gómez Hidalgo创建的SMS Spam Corpus v.0.1 Big中提取的1,002条合法短信和322条垃圾短信。这些数据经过精心筛选和标注,确保了数据集的高质量和多样性。
特点
SMS Spam Collection v.1数据集的主要特点在于其广泛的数据来源和细致的标注。该数据集包含了5,574条短信,其中4,827条为合法短信(占86.6%),747条为垃圾短信(占13.4%)。每条短信均被明确标注为‘ham’(合法)或‘spam’(垃圾),且每条记录包含两列:标签和原始文本。这种结构化的数据格式便于机器学习模型的训练和评估,同时也为研究者提供了丰富的数据资源。
使用方法
SMS Spam Collection v.1数据集适用于多种自然语言处理和机器学习任务,尤其是垃圾短信检测。研究者可以直接下载数据集,并根据提供的格式进行数据预处理和模型训练。数据集的每条记录均包含标签和原始文本,便于直接应用于分类任务。此外,数据集的构建者和相关研究论文提供了详细的统计信息和基准结果,为研究者提供了参考和对比的基础。在使用数据集时,建议引用相关文献和数据集的官方页面,以确保学术诚信和数据来源的透明性。
背景与挑战
背景概述
SMS Spam Collection v.1(以下简称语料库)是由Tiago Agostinho de Almeida和José María Gómez Hidalgo共同创建的一个用于短信垃圾邮件研究的标记数据集。该数据集包含了5,574条英文短信,标记为合法(ham)或垃圾(spam)。该数据集的构建汇集了多个来源,包括Grumbletext网站的手动提取、Caroline Tag的博士论文、新加坡国立大学(NUS)的SMS语料库以及José María Gómez Hidalgo的早期工作。这些数据主要用于研究短信垃圾邮件过滤技术,为相关领域的研究提供了宝贵的资源。
当前挑战
SMS Spam Collection v.1在构建过程中面临了多个挑战。首先,从Grumbletext网站手动提取垃圾短信是一项耗时且复杂的任务,需要仔细扫描数百个网页。其次,数据集的多样性问题,尽管包含了多个来源的数据,但主要集中在英国和新加坡,可能限制了其在全球范围内的适用性。此外,数据集的标签不平衡问题也是一个挑战,其中合法短信占86.6%,而垃圾短信仅占13.4%,这可能导致模型在处理垃圾短信时表现不佳。最后,数据集的隐私问题也需考虑,因为部分数据来自志愿者的贡献,确保数据使用的合规性至关重要。
常用场景
经典使用场景
SMS Spam Collection v.1数据集在自然语言处理领域中被广泛应用于垃圾短信检测任务。通过分析数据集中标记为‘ham’(合法)和‘spam’(垃圾)的短信,研究人员可以开发和验证各种机器学习模型,以识别和过滤垃圾短信。这一经典场景不仅有助于提升短信服务的用户体验,还能有效减少用户因垃圾短信而遭受的骚扰和潜在的欺诈风险。
解决学术问题
该数据集解决了自然语言处理领域中垃圾短信检测的核心问题。通过提供大量标记数据,它为研究人员提供了一个标准化的基准,用于评估和比较不同算法的性能。这不仅推动了文本分类技术的发展,还为研究如何更有效地识别和过滤垃圾短信提供了宝贵的资源。此外,该数据集的公开使用促进了跨学科的合作,使得更多研究者能够参与到这一重要问题的解决中来。
衍生相关工作
基于SMS Spam Collection v.1数据集,许多相关研究工作得以展开。例如,研究人员开发了多种基于机器学习和深度学习的垃圾短信检测模型,这些模型在准确性和效率上都有显著提升。此外,该数据集还启发了对多语言垃圾短信检测的研究,推动了跨语言文本分类技术的发展。这些衍生工作不仅丰富了垃圾短信检测的理论基础,还为实际应用提供了更多有效的解决方案。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Agricultural Pests Dataset

Agricultural Pests Classification

kaggle 收录