ucirvine/sms_spam

Name: ucirvine/sms_spam
Creator: ucirvine
Published: 2024-08-08 06:04:08
License: 暂无描述

Hugging Face2024-08-08 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/ucirvine/sms_spam

下载链接

链接失效反馈

官方服务：

资源简介：

SMS垃圾邮件收集数据集v.1是一个公开的短信标记数据集，用于手机垃圾邮件研究。该数据集包含5,574条英文短信，每条短信被标记为ham（非垃圾邮件）或spam（垃圾邮件）。数据集的特征包括短信内容和标签，标签用于指示短信是否为垃圾邮件。数据集的创建者包括Tiago A. Almeida等人，相关论文发表于2011年的ACM Symposium on Document Engineering。

提供机构：

ucirvine

原始信息汇总

数据集概述

数据集名称

名称: SMS Spam Collection Data Set
别名: SMS Spam Collection v.1

数据集描述

描述: 该数据集包含5,574条英文短信，标记为合法（ham）或垃圾（spam）。
语言: 英语

数据集特征

特征1: sms
- 类型: 字符串
特征2: label
- 类型: 分类标签
- 标签:
  - 0: ham
  - 1: spam

数据集结构

训练集:
- 示例数量: 5574
- 字节大小: 521756

数据集创建

注释创建者: 众包、发现
语言创建者: 众包、发现

许可证

类型: 未知

多语言性

类型: 单语

大小类别

范围: 1K<n<10K

源数据集

扩展自: other-nus-sms-corpus

任务类别

类别: 文本分类

任务ID

ID: intent-classification

评估指标

指标1: 准确率 (Accuracy)
指标2: F1 宏平均 (F1 macro)
指标3: F1 微平均 (F1 micro)
指标4: F1 加权平均 (F1 weighted)
指标5: 精确率宏平均 (Precision macro)
指标6: 精确率微平均 (Precision micro)
指标7: 精确率加权平均 (Precision weighted)
指标8: 召回率宏平均 (Recall macro)
指标9: 召回率微平均 (Recall micro)
指标10: 召回率加权平均 (Recall weighted)

搜集汇总

数据集介绍

构建方式

在移动通信安全研究领域，短信垃圾信息的识别始终是重要课题。SMS Spam Collection数据集的构建源于对真实短信内容的系统性收集与标注，其原始数据扩展自NUS SMS语料库，并经过众包与既有来源的整合。该数据集共包含5574条英文短信，每条消息均被人工或自动化流程标记为“正常”（ham）或“垃圾”（spam），形成了适用于二分类任务的监督学习样本。整个构建过程注重数据的真实性与代表性，为后续的过滤算法研究提供了可靠基础。

特点

该数据集在文本分类任务中展现出鲜明的特点。所有短信均为未经编码的英文真实消息，涵盖了日常通信与商业推广等多种语境，语言风格自然多样。数据规模适中，包含5574条样本，每条数据由短信文本和对应的二分类标签构成，标签分为“正常”与“垃圾”两类。数据集结构简洁，仅包含一个训练分割，便于直接用于模型训练与评估。此外，该数据集作为经典基准，常被用于测试分类模型的准确率、F1值等多项性能指标。

使用方法

在自然语言处理的应用中，该数据集主要用于文本二分类任务的模型训练与评估。研究者可通过HuggingFace平台直接加载数据集，利用其提供的短信文本字段作为输入特征，标签字段作为预测目标。典型流程包括数据预处理、特征提取、模型训练及性能验证，常用评估指标包括准确率、宏平均与微平均的F1分数等。该数据集亦适用于对比不同分类算法在垃圾短信识别任务上的效果，为移动安全领域的过滤技术提供实证支持。

背景与挑战

背景概述

随着移动通信技术的飞速发展，短信服务成为日常沟通的重要媒介，但随之而来的垃圾短信问题日益凸显，对用户隐私与信息安全构成严重威胁。在此背景下，由Tiago A. Almeida、Jose Maria Gomez Hidalgo和Akebo Yamakami等研究人员于2011年创建的SMS Spam Collection数据集应运而生，旨在为垃圾短信过滤研究提供标准化资源。该数据集收录了5,574条真实英文短信，每条均标注为合法（ham）或垃圾（spam），其发布不仅推动了文本分类算法在自然语言处理领域的应用，还为后续的意图识别与信息安全研究奠定了数据基础，对提升移动通信环境的清洁度具有深远影响。

当前挑战

该数据集致力于解决垃圾短信自动分类的领域挑战，其核心在于处理短信文本的简短性、非正式语言使用以及高度不平衡的类别分布，这些因素增加了模型区分合法与垃圾信息的难度。在构建过程中，研究人员面临数据收集与标注的双重挑战：短信来源的多样性与隐私保护需求使得原始数据获取受限，而通过众包与现有资源整合的标注方式可能导致标签一致性不足，影响数据集的可靠性。此外，数据规模相对有限，难以全面覆盖不断演变的垃圾短信模式，限制了模型在现实场景中的泛化能力。

常用场景

经典使用场景

在自然语言处理领域，短信垃圾信息过滤是一个经典任务，SMS Spam Collection数据集为此提供了关键资源。该数据集包含5574条英文短信，每条消息均标注为正常（ham）或垃圾（spam），为文本分类研究提供了标准基准。研究者通常利用该数据集训练和评估机器学习模型，特别是监督学习算法，以区分垃圾信息与正常通信。其简洁的二元分类结构和真实短信内容，使得模型能够学习到实际场景中的语言模式和特征，成为垃圾信息检测领域的基础实验平台。

解决学术问题

该数据集有效解决了垃圾信息自动识别中的核心学术问题，即如何在有限标注数据下构建高精度分类模型。通过提供大规模真实短信样本，它支持了特征工程、模型泛化能力及不平衡数据处理的深入研究。在自然语言处理中，该数据集帮助探索了短文本分类的独特挑战，如语境稀疏性和口语化表达，推动了朴素贝叶斯、支持向量机等传统算法与深度学习方法的性能比较。其存在促进了垃圾信息过滤技术的理论发展，为后续研究提供了可复现的实验基础。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作。例如，Almeida等人2011年的论文首次系统介绍了该数据集，并评估了多种分类算法的性能，为后续研究奠定基础。后续研究扩展至深度学习模型，如卷积神经网络和循环神经网络在短信分类中的应用探索。同时，该数据集常被用于迁移学习和跨领域适应研究，比较不同文本源之间的模型泛化能力。这些工作不仅推动了垃圾信息检测技术的进步，还促进了自然语言处理中短文本分析方法的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集