SMS Spam Collection v.1|垃圾短信识别数据集|数据分析数据集

github2024-06-26 更新2024-06-30 收录

垃圾短信识别

数据分析

下载链接：

https://github.com/AYUSHSURYAVANSHI/SMS-Spam-Collection-NLP-Project

下载链接

链接失效反馈

资源简介：

SMS Spam Collection v.1（以下简称语料库）是一组标记为垃圾短信研究用途的短信消息集合。它包含5,574条英文短信，标记为合法（ham）或垃圾（spam）。

创建时间：

2024-06-26

原始信息汇总

SMS Spam Collection v.1 数据集概述

描述

SMS Spam Collection v.1（以下简称语料库）是一组用于SMS垃圾邮件研究的标记短信集合。该语料库包含5,574条英文短信，标记为合法（ham）或垃圾邮件（spam）。

编译来源

该语料库从以下免费或免费用于研究的网络资源中收集：

从Grumbletext网站手动提取的425条SMS垃圾邮件信息。Grumbletext是一个英国论坛，手机用户在此公开声称收到SMS垃圾邮件，大多数情况下没有报告收到的垃圾邮件内容。识别这些垃圾邮件文本是一项非常困难且耗时的任务，需要仔细扫描数百个网页。
从Caroline Tag的博士论文中收集的450条SMS合法信息。
从新加坡国立大学（NUS）SMS语料库（NSC）中提取的3,375条SMS合法信息。NSC是一个约10,000条合法信息的语料库，主要来自新加坡人，大部分来自新加坡国立大学的学生。这些信息由志愿者提供，并被告知他们的贡献将被公开。
从José María Gómez Hidalgo创建的SMS Spam Corpus v.0.1 Big中提取的1,002条SMS合法信息和322条垃圾邮件信息。

统计数据

该语料库包含：

SMS Spam Collection v.1（文本文件：smsspamcollection）共有4,827条合法信息（86.6%）和747条垃圾邮件（13.4%）。

格式

文件每行包含一条信息。每行由两列组成：一列是标签（ham或spam），另一列是原始文本。例如：

ham 你在做什么？你好吗？ ham 好的，只是在和你开玩笑... ham 不要这么早说...你已经知道了然后才说... ham 我的号码在卢顿0125698789，如果你在附近给我打电话！H* ham Siva在宿舍哈哈:-. ham 因为我刚才和darren出去购物，我打电话问他想要什么礼物。然后他开始猜我和谁在一起，最后他猜对了。 spam 免费消息：发送：CALL到号码：86888并领取您的奖励，现在从您的手机开始使用3小时通话时间！订阅6GBP/月包含3小时16停止？发送Stop spam 阳光问答！如果你能说出澳大利亚的首都，就可以赢得一台超级索尼DVD录像机！发送MQUIZ到82277。B spam 紧急！您的手机号码07808726822在2003年9月2日获得了L2,000奖金奖！这是我们第二次尝试联系您！拨打0871-872-9758 BOX95QU

注意：消息未按时间顺序排序。

使用

我们在这篇正在审阅的论文中对该语料库进行了全面研究。这项工作提供了多项统计数据、研究和多种机器学习方法的基线结果。

关于

该语料库由Tiago Agostinho de Almeida和José María Gómez Hidalgo收集。

我们感谢Dr. Min-Yen Kan及其团队提供NUS SMS语料库。

许可/免责声明

如果您发现该语料库有用，请在您的论文、研究等中引用之前的论文和网页：http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/。

SMS Spam Collection v.1是免费提供的，但有限制：

Tiago Agostinho de Almeida和José María Gómez Hidalgo拥有SMS Spam Collection v.1的版权。
无担保/风险自负。该语料库是免费提供的。因此，该语料库是“按原样”提供的，没有任何形式的担保，包括但不限于可销售性、适合特定目的或不侵权的担保。您对语料库的使用、分发、修改、复制和发布以及由此产生的任何衍生作品（统称为“您的语料库使用”）负全部责任。您对您的语料库使用承担全部风险。您同意赔偿并使版权持有人及其附属机构免受任何索赔的影响，这些索赔与您的语料库使用有关。
责任限制。在任何情况下，版权持有人或其附属机构或语料库贡献编辑均不对间接、特殊、偶然或后果性损害负责，包括但不限于商誉损失或其他任何商业损害或损失，即使已被告知可能发生此类损害，并且无论索赔是基于合同、侵权或其他法律或衡平法理论，与语料库、您的语料库使用或本许可协议有关。

AI搜集汇总

数据集介绍

构建方式

SMS Spam Collection v.1数据集的构建基于多源数据的整合，涵盖了从不同公开资源中提取的短信信息。具体而言，该数据集包括从Grumbletext网站手动提取的425条垃圾短信，以及从Caroline Tag的博士论文中收集的450条合法短信。此外，数据集还纳入了来自NUS SMS Corpus的3,375条合法短信，以及从José María Gómez Hidalgo创建的SMS Spam Corpus v.0.1 Big中提取的1,002条合法短信和322条垃圾短信。这些数据经过精心筛选和标注，确保了数据集的高质量和多样性。

特点

SMS Spam Collection v.1数据集的主要特点在于其广泛的数据来源和细致的标注。该数据集包含了5,574条短信，其中4,827条为合法短信（占86.6%），747条为垃圾短信（占13.4%）。每条短信均被明确标注为‘ham’（合法）或‘spam’（垃圾），且每条记录包含两列：标签和原始文本。这种结构化的数据格式便于机器学习模型的训练和评估，同时也为研究者提供了丰富的数据资源。

使用方法

SMS Spam Collection v.1数据集适用于多种自然语言处理和机器学习任务，尤其是垃圾短信检测。研究者可以直接下载数据集，并根据提供的格式进行数据预处理和模型训练。数据集的每条记录均包含标签和原始文本，便于直接应用于分类任务。此外，数据集的构建者和相关研究论文提供了详细的统计信息和基准结果，为研究者提供了参考和对比的基础。在使用数据集时，建议引用相关文献和数据集的官方页面，以确保学术诚信和数据来源的透明性。

背景与挑战

背景概述

SMS Spam Collection v.1（以下简称语料库）是由Tiago Agostinho de Almeida和José María Gómez Hidalgo共同创建的一个用于短信垃圾邮件研究的标记数据集。该数据集包含了5,574条英文短信，标记为合法（ham）或垃圾（spam）。该数据集的构建汇集了多个来源，包括Grumbletext网站的手动提取、Caroline Tag的博士论文、新加坡国立大学（NUS）的SMS语料库以及José María Gómez Hidalgo的早期工作。这些数据主要用于研究短信垃圾邮件过滤技术，为相关领域的研究提供了宝贵的资源。

当前挑战

SMS Spam Collection v.1在构建过程中面临了多个挑战。首先，从Grumbletext网站手动提取垃圾短信是一项耗时且复杂的任务，需要仔细扫描数百个网页。其次，数据集的多样性问题，尽管包含了多个来源的数据，但主要集中在英国和新加坡，可能限制了其在全球范围内的适用性。此外，数据集的标签不平衡问题也是一个挑战，其中合法短信占86.6%，而垃圾短信仅占13.4%，这可能导致模型在处理垃圾短信时表现不佳。最后，数据集的隐私问题也需考虑，因为部分数据来自志愿者的贡献，确保数据使用的合规性至关重要。

常用场景

经典使用场景

SMS Spam Collection v.1数据集在自然语言处理领域中被广泛应用于垃圾短信检测任务。通过分析数据集中标记为‘ham’（合法）和‘spam’（垃圾）的短信，研究人员可以开发和验证各种机器学习模型，以识别和过滤垃圾短信。这一经典场景不仅有助于提升短信服务的用户体验，还能有效减少用户因垃圾短信而遭受的骚扰和潜在的欺诈风险。

解决学术问题

该数据集解决了自然语言处理领域中垃圾短信检测的核心问题。通过提供大量标记数据，它为研究人员提供了一个标准化的基准，用于评估和比较不同算法的性能。这不仅推动了文本分类技术的发展，还为研究如何更有效地识别和过滤垃圾短信提供了宝贵的资源。此外，该数据集的公开使用促进了跨学科的合作，使得更多研究者能够参与到这一重要问题的解决中来。

衍生相关工作

基于SMS Spam Collection v.1数据集，许多相关研究工作得以展开。例如，研究人员开发了多种基于机器学习和深度学习的垃圾短信检测模型，这些模型在准确性和效率上都有显著提升。此外，该数据集还启发了对多语言垃圾短信检测的研究，推动了跨语言文本分类技术的发展。这些衍生工作不仅丰富了垃圾短信检测的理论基础，还为实际应用提供了更多有效的解决方案。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

日食计算器

此日食计算器能够查询公元前3000至后3000年范围内的日食信息，生成每次日食的覆盖区、中心区范围数据，展示日食带的地图；并可根据用户在地图上点击的坐标在线计算该地日食各阶段时间、食分等观测信息。

国家天文科学数据中心收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

CMU-MOSI

CMU-MOSI数据集包括了从93个YouTube的视频中获取的2199个独白类型的短视频片段。每个片段都是一个独立的多模态示例，其中图像、文本和音频占比是均匀的，情感分数取值为[-3,+3]，表示从强负向到强正向情感。

DataCite Commons 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录