five

mshenoda/spam-messages

收藏
Hugging Face2023-06-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mshenoda/spam-messages
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由标记为ham或spam的消息组成,这些消息来自三个数据源:SMS Spam Collection、Telegram Spam Ham和Enron Spam。数据集被划分为80%的训练集、10%的验证集和10%的测试集。

该数据集由标记为ham或spam的消息组成,这些消息来自三个数据源:SMS Spam Collection、Telegram Spam Ham和Enron Spam。数据集被划分为80%的训练集、10%的验证集和10%的测试集。
提供机构:
mshenoda
原始信息汇总

数据集概述

数据集组成

本数据集由标记为“ham”或“spam”的消息组成,合并自以下三个数据源:

  1. SMS Spam Collection - 来源:SMS Spam Collection
  2. Telegram Spam Ham - 来源:Telegram Spam Ham
  3. Enron Spam - 来源:Enron Spam,仅使用消息列和标签

数据集分割

数据集被分为80%的训练集、10%的验证集和10%的测试集。用于分割和合并三个数据源的脚本可在此处找到:数据分割脚本

数据集类分布

数据集部分 比例
训练集 80%
验证集 10%
测试集 10%
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个用于垃圾邮件分类的文本数据集,包含约5.9万条消息,分为'ham'(正常)和'spam'(垃圾)两类,数据合并自SMS、Telegram和Enron三个来源,并已划分为训练、验证和测试集,适用于机器学习模型的训练和评估。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作