ucirvine/sms_spam
收藏Hugging Face2024-08-08 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ucirvine/sms_spam
下载链接
链接失效反馈官方服务:
资源简介:
SMS垃圾邮件收集数据集v.1是一个公开的短信标记数据集,用于手机垃圾邮件研究。该数据集包含5,574条英文短信,每条短信被标记为ham(非垃圾邮件)或spam(垃圾邮件)。数据集的特征包括短信内容和标签,标签用于指示短信是否为垃圾邮件。数据集的创建者包括Tiago A. Almeida等人,相关论文发表于2011年的ACM Symposium on Document Engineering。
SMS垃圾邮件收集数据集v.1是一个公开的短信标记数据集,用于手机垃圾邮件研究。该数据集包含5,574条英文短信,每条短信被标记为ham(非垃圾邮件)或spam(垃圾邮件)。数据集的特征包括短信内容和标签,标签用于指示短信是否为垃圾邮件。数据集的创建者包括Tiago A. Almeida等人,相关论文发表于2011年的ACM Symposium on Document Engineering。
提供机构:
ucirvine
原始信息汇总
数据集概述
数据集名称
- 名称: SMS Spam Collection Data Set
- 别名: SMS Spam Collection v.1
数据集描述
- 描述: 该数据集包含5,574条英文短信,标记为合法(ham)或垃圾(spam)。
- 语言: 英语
数据集特征
- 特征1: sms
- 类型: 字符串
- 特征2: label
- 类型: 分类标签
- 标签:
- 0: ham
- 1: spam
数据集结构
- 训练集:
- 示例数量: 5574
- 字节大小: 521756
数据集创建
- 注释创建者: 众包、发现
- 语言创建者: 众包、发现
许可证
- 类型: 未知
多语言性
- 类型: 单语
大小类别
- 范围: 1K<n<10K
源数据集
- 扩展自: other-nus-sms-corpus
任务类别
- 类别: 文本分类
任务ID
- ID: intent-classification
评估指标
- 指标1: 准确率 (Accuracy)
- 指标2: F1 宏平均 (F1 macro)
- 指标3: F1 微平均 (F1 micro)
- 指标4: F1 加权平均 (F1 weighted)
- 指标5: 精确率 宏平均 (Precision macro)
- 指标6: 精确率 微平均 (Precision micro)
- 指标7: 精确率 加权平均 (Precision weighted)
- 指标8: 召回率 宏平均 (Recall macro)
- 指标9: 召回率 微平均 (Recall micro)
- 指标10: 召回率 加权平均 (Recall weighted)
搜集汇总
数据集介绍

构建方式
在移动通信安全研究领域,短信垃圾信息的识别始终是重要课题。SMS Spam Collection数据集的构建源于对真实短信内容的系统性收集与标注,其原始数据扩展自NUS SMS语料库,并经过众包与既有来源的整合。该数据集共包含5574条英文短信,每条消息均被人工或自动化流程标记为“正常”(ham)或“垃圾”(spam),形成了适用于二分类任务的监督学习样本。整个构建过程注重数据的真实性与代表性,为后续的过滤算法研究提供了可靠基础。
特点
该数据集在文本分类任务中展现出鲜明的特点。所有短信均为未经编码的英文真实消息,涵盖了日常通信与商业推广等多种语境,语言风格自然多样。数据规模适中,包含5574条样本,每条数据由短信文本和对应的二分类标签构成,标签分为“正常”与“垃圾”两类。数据集结构简洁,仅包含一个训练分割,便于直接用于模型训练与评估。此外,该数据集作为经典基准,常被用于测试分类模型的准确率、F1值等多项性能指标。
使用方法
在自然语言处理的应用中,该数据集主要用于文本二分类任务的模型训练与评估。研究者可通过HuggingFace平台直接加载数据集,利用其提供的短信文本字段作为输入特征,标签字段作为预测目标。典型流程包括数据预处理、特征提取、模型训练及性能验证,常用评估指标包括准确率、宏平均与微平均的F1分数等。该数据集亦适用于对比不同分类算法在垃圾短信识别任务上的效果,为移动安全领域的过滤技术提供实证支持。
背景与挑战
背景概述
随着移动通信技术的飞速发展,短信服务成为日常沟通的重要媒介,但随之而来的垃圾短信问题日益凸显,对用户隐私与信息安全构成严重威胁。在此背景下,由Tiago A. Almeida、Jose Maria Gomez Hidalgo和Akebo Yamakami等研究人员于2011年创建的SMS Spam Collection数据集应运而生,旨在为垃圾短信过滤研究提供标准化资源。该数据集收录了5,574条真实英文短信,每条均标注为合法(ham)或垃圾(spam),其发布不仅推动了文本分类算法在自然语言处理领域的应用,还为后续的意图识别与信息安全研究奠定了数据基础,对提升移动通信环境的清洁度具有深远影响。
当前挑战
该数据集致力于解决垃圾短信自动分类的领域挑战,其核心在于处理短信文本的简短性、非正式语言使用以及高度不平衡的类别分布,这些因素增加了模型区分合法与垃圾信息的难度。在构建过程中,研究人员面临数据收集与标注的双重挑战:短信来源的多样性与隐私保护需求使得原始数据获取受限,而通过众包与现有资源整合的标注方式可能导致标签一致性不足,影响数据集的可靠性。此外,数据规模相对有限,难以全面覆盖不断演变的垃圾短信模式,限制了模型在现实场景中的泛化能力。
常用场景
经典使用场景
在自然语言处理领域,短信垃圾信息过滤是一个经典任务,SMS Spam Collection数据集为此提供了关键资源。该数据集包含5574条英文短信,每条消息均标注为正常(ham)或垃圾(spam),为文本分类研究提供了标准基准。研究者通常利用该数据集训练和评估机器学习模型,特别是监督学习算法,以区分垃圾信息与正常通信。其简洁的二元分类结构和真实短信内容,使得模型能够学习到实际场景中的语言模式和特征,成为垃圾信息检测领域的基础实验平台。
解决学术问题
该数据集有效解决了垃圾信息自动识别中的核心学术问题,即如何在有限标注数据下构建高精度分类模型。通过提供大规模真实短信样本,它支持了特征工程、模型泛化能力及不平衡数据处理的深入研究。在自然语言处理中,该数据集帮助探索了短文本分类的独特挑战,如语境稀疏性和口语化表达,推动了朴素贝叶斯、支持向量机等传统算法与深度学习方法的性能比较。其存在促进了垃圾信息过滤技术的理论发展,为后续研究提供了可复现的实验基础。
衍生相关工作
围绕该数据集,学术界衍生了一系列经典研究工作。例如,Almeida等人2011年的论文首次系统介绍了该数据集,并评估了多种分类算法的性能,为后续研究奠定基础。后续研究扩展至深度学习模型,如卷积神经网络和循环神经网络在短信分类中的应用探索。同时,该数据集常被用于迁移学习和跨领域适应研究,比较不同文本源之间的模型泛化能力。这些工作不仅推动了垃圾信息检测技术的进步,还促进了自然语言处理中短文本分析方法的创新。
以上内容由遇见数据集搜集并总结生成



