mshenoda/spam-messages
收藏Hugging Face2023-06-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mshenoda/spam-messages
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由标记为ham或spam的消息组成,这些消息来自三个数据源:SMS Spam Collection、Telegram Spam Ham和Enron Spam。数据集被划分为80%的训练集、10%的验证集和10%的测试集。
该数据集由标记为ham或spam的消息组成,这些消息来自三个数据源:SMS Spam Collection、Telegram Spam Ham和Enron Spam。数据集被划分为80%的训练集、10%的验证集和10%的测试集。
提供机构:
mshenoda
原始信息汇总
数据集概述
数据集组成
本数据集由标记为“ham”或“spam”的消息组成,合并自以下三个数据源:
- SMS Spam Collection - 来源:SMS Spam Collection
- Telegram Spam Ham - 来源:Telegram Spam Ham
- Enron Spam - 来源:Enron Spam,仅使用消息列和标签
数据集分割
数据集被分为80%的训练集、10%的验证集和10%的测试集。用于分割和合并三个数据源的脚本可在此处找到:数据分割脚本。
数据集类分布
| 数据集部分 | 比例 |
|---|---|
| 训练集 | 80% |
| 验证集 | 10% |
| 测试集 | 10% |
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于垃圾邮件分类的文本数据集,包含约5.9万条消息,分为'ham'(正常)和'spam'(垃圾)两类,数据合并自SMS、Telegram和Enron三个来源,并已划分为训练、验证和测试集,适用于机器学习模型的训练和评估。
以上内容由遇见数据集搜集并总结生成



