TrainingDataPro/generated-e-mail-spam

Name: TrainingDataPro/generated-e-mail-spam
Creator: TrainingDataPro
Published: 2024-04-25 10:51:15
License: 暂无描述

Hugging Face2024-04-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/TrainingDataPro/generated-e-mail-spam

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en license: cc-by-nc-nd-4.0 task_categories: - text-generation - text-classification tags: - code - finance dataset_info: features: - name: title dtype: string - name: text dtype: large_string splits: - name: train num_bytes: 233533 num_examples: 300 download_size: 230500 dataset_size: 233533 --- # Generated E-mail Spam - text classification dataset The dataset consists of a **CSV file** containing of 300 generated email spam messages. Each row in the file represents a separate email message, its *title and text.* The dataset aims to facilitate the analysis and detection of spam emails. # 💴 For Commercial Usage: To discuss your requirements, learn about the price and buy the dataset, leave a request on **[TrainingData](https://trainingdata.pro/datasets/spambase?utm_source=huggingface&utm_medium=cpc&utm_campaign=generated-e-mail-spam)** to buy the dataset The dataset can be used for various purposes, such as *training machine learning algorithms to classify and filter spam emails, studying spam email patterns, or analyzing text-based features of spam messages*. # Generated Data The data was generated using `model text-davinci-003` Open AI API ![](https://www.googleapis.com/download/storage/v1/b/kaggle-user-content/o/inbox%2F12421376%2Fdefd7209a4510c98e556ca384c8ace68%2Finbox_618942_4d1fdedb2827152696dd0c0af05fd8da_f.png?generation=1695221394608089&alt=media) # 💴 Buy the Dataset: This is just an example of the data. Leave a request on **[https://trainingdata.pro/datasets](https://trainingdata.pro/datasets/spambase?utm_source=huggingface&utm_medium=cpc&utm_campaign=generated-e-mail-spam)** to discuss your requirements, learn about the price and buy the dataset # Content ### File with the extension .csv (utf-8) includes the following information: - **title**: title of the email, - **text**: text of the email # Email spam might be generated in accordance with your requirements. ## **[TrainingData](https://trainingdata.pro/datasets/spambase?utm_source=huggingface&utm_medium=cpc&utm_campaign=generated-e-mail-spam)** provides high-quality data annotation tailored to your needs More datasets in TrainingData's Kaggle account: **https://www.kaggle.com/trainingdatapro/datasets** TrainingData's GitHub: **https://github.com/Trainingdata-datamarket/TrainingData_All_datasets** *keywords: spam mails dataset, email spam classification, spam or not-spam, spam e-mail database, spam detection system, email spamming data set, spam filtering system, spambase, feature extraction, spam ham email dataset, classifier, machine learning algorithms, automated, generated data, synthetic data, synthetic data generation, synthetic dataset , cybersecurity, text dataset, sentiment analysis, llm dataset, language modeling, large language models, text classification, text mining dataset, natural language texts, nlp, nlp open-source dataset, text data*

--- 语言： - 英语（en）许可协议：CC BY-NC-ND 4.0 任务类别： - 文本生成 - 文本分类标签： - 代码 - 金融数据集信息：特征： - 名称：title，数据类型：字符串 - 名称：text，数据类型：大字符串划分集： - 名称：训练集（train），字节数：233533，样本数：300 下载大小：230500 数据集总大小：233533 --- # 生成式电子邮件垃圾邮件——文本分类数据集本数据集包含一个**CSV格式文件**，内含300条生成的垃圾邮件消息。文件中每一行对应一封独立的电子邮件，包含其*主题与正文*。本数据集旨在助力垃圾邮件的分析与检测工作。 # 💴 商业使用须知：如需洽谈需求、了解定价并购买本数据集，请前往**[TrainingData](https://trainingdata.pro/datasets/spambase?utm_source=huggingface&utm_medium=cpc&utm_campaign=generated-e-mail-spam)**提交申请。本数据集可应用于多种场景，例如*训练用于分类与过滤垃圾邮件的机器学习算法、研究垃圾邮件的模式、分析垃圾邮件消息的文本特征*等。 # 生成式数据本数据集的数据通过OpenAI API的`text-davinci-003`模型生成。 ![](https://www.googleapis.com/download/storage/v1/b/kaggle-user-content/o/inbox%2F12421376%2Fdefd7209a9a10c98e556ca384c8ace68%2Finbox_618942_4d1fdedb2827152696dd0c0af05fd8da_f.png?generation=1695221394608089&alt=media) # 💴 购买数据集：此仅为数据示例。如需洽谈需求、了解定价并购买本数据集，请前往**[https://trainingdata.pro/datasets/spambase?utm_source=huggingface&utm_medium=cpc&utm_campaign=generated-e-mail-spam](https://trainingdata.pro/datasets/spambase?utm_source=huggingface&utm_medium=cpc&utm_campaign=generated-e-mail-spam)**提交申请。 # 数据集内容 ### UTF-8编码的CSV格式文件包含以下信息： - **title**：电子邮件的主题标题 - **text**：电子邮件的正文内容 # 可根据您的需求定制生成垃圾邮件。 ## **[TrainingData](https://trainingdata.pro/datasets/spambase?utm_source=huggingface&utm_medium=cpc&utm_campaign=generated-e-mail-spam)** 可提供贴合您需求的高质量数据标注服务 TrainingData在Kaggle平台的账号内还有更多优质数据集：**https://www.kaggle.com/trainingdatapro/datasets** TrainingData的GitHub开源仓库：**https://github.com/Trainingdata-datamarket/TrainingData_All_datasets** *关键词：垃圾邮件数据集、电子邮件垃圾邮件分类、垃圾/非垃圾邮件、垃圾邮件数据库、垃圾邮件检测系统、垃圾邮件数据集合、垃圾邮件过滤系统、spambase、特征提取、垃圾邮件与正常邮件数据集、分类器、机器学习算法、自动化、生成式数据、合成数据、合成数据生成、合成数据集、网络安全、文本数据集、情感分析、大语言模型（LLM）数据集、语言建模、大语言模型、文本分类、文本挖掘数据集、自然语言文本、自然语言处理（NLP）、NLP开源数据集、文本数据*

提供机构：

TrainingDataPro

原始信息汇总

生成的电子邮件垃圾邮件 - 文本分类数据集

该数据集包含一个 CSV 文件，其中包含 300 条生成的电子邮件垃圾邮件消息。文件中的每一行代表一个单独的电子邮件消息，包括其 标题和正文。该数据集旨在促进垃圾邮件的分析和检测。

数据集信息

特征

title: 电子邮件的标题，数据类型为字符串。
text: 电子邮件的正文，数据类型为大字符串。

数据分割

train: 训练集，包含 233533 字节和 300 个样本。

数据大小

下载大小: 230500 字节
数据集大小: 233533 字节

数据生成

数据是通过使用 model text-davinci-003 Open AI API 生成的。

用途

该数据集可用于多种目的，例如 训练机器学习算法以分类和过滤垃圾邮件，研究垃圾邮件模式，或分析垃圾邮件消息的文本特征。

搜集汇总

数据集介绍

构建方式

在电子邮件安全与自然语言处理领域，高质量的标注数据对于训练有效的垃圾邮件检测模型至关重要。Generated E-mail Spam数据集通过OpenAI的text-davinci-003模型API生成，构建了300条包含标题与正文的模拟垃圾邮件样本。这一生成过程旨在模拟真实世界中的垃圾邮件文本特征，为研究者提供了一个可控且可复现的数据源，以支持对垃圾邮件模式的分析与模型训练。

使用方法

研究人员可将该数据集直接应用于文本分类模型的训练与评估，特别是垃圾邮件检测任务。使用前需加载CSV格式文件，并依据标题与正文字段进行特征提取与标注处理。数据集适用于监督学习框架，能够用于训练分类器以识别垃圾邮件的文本模式，也可作为基准数据用于比较不同机器学习或深度学习算法的性能。此外，其合成性质使得它在数据增强或特定场景下的泛化研究中具有一定价值。

背景与挑战

背景概述

在网络安全与自然语言处理领域，垃圾邮件检测始终是核心研究议题之一。TrainingDataPro/generated-e-mail-spam数据集由Unidata团队于近年创建，其核心研究问题聚焦于利用生成式人工智能技术构建高质量的合成数据，以支持垃圾邮件分类模型的训练与优化。该数据集通过OpenAI的text-davinci-003模型生成300条包含标题与正文的电子邮件样本，旨在为机器学习算法提供标准化的训练资源，推动文本分类与欺诈检测技术的发展，对提升自动化过滤系统的效能具有显著影响力。

当前挑战

该数据集致力于解决垃圾邮件分类中的领域挑战，包括识别多样化的欺诈模式、应对语义演化及对抗性攻击的复杂性。在构建过程中，面临合成数据真实性与多样性的平衡难题，生成模型可能引入偏差或缺乏现实世界中的噪声特征。此外，数据规模有限，仅包含300条样本，难以全面覆盖垃圾邮件的动态变化与语境差异，这为模型的泛化能力与鲁棒性评估带来潜在制约。

常用场景

经典使用场景

在网络安全与自然语言处理领域，垃圾邮件检测始终是保障通信安全的核心议题。该数据集通过生成式人工智能技术构建了300条模拟垃圾邮件样本，为研究者提供了标准化的文本分类基准。经典使用场景聚焦于训练机器学习模型，特别是支持向量机、朴素贝叶斯等传统算法，以及基于Transformer的深度神经网络，以精准区分垃圾邮件与正常邮件。这种场景不仅验证模型在有限数据下的泛化能力，还推动了特征工程与文本表示方法的创新探索。

解决学术问题

该数据集有效应对了学术界在垃圾邮件研究中的若干挑战。首先，它缓解了真实垃圾邮件数据因隐私与法律限制难以获取的困境，为实验提供了可控且合规的语料。其次，生成数据具备可定制的文本模式，助力研究者系统分析垃圾邮件的语言特征、欺诈策略与情感诱导机制。更重要的是，它为小样本学习与合成数据有效性评估提供了实验平台，深化了关于数据生成技术在网络安全领域应用价值的理论探讨。

实际应用

在实际应用层面，该数据集可直接服务于电子邮件服务提供商与企业的安全系统开发。通过基于此数据训练的过滤模型，能够自动识别并拦截包含钓鱼链接、虚假促销或恶意软件的邮件，显著提升用户邮箱的洁净度与安全性。同时，该数据集也为金融、电商等行业的反欺诈系统提供文本分析模块的训练基础，辅助检测通过邮件进行的身份窃取或交易诈骗行为，强化数字环境中的风险防控体系。

数据集最近研究