FredZhang7/all-scam-spam

Name: FredZhang7/all-scam-spam
Creator: FredZhang7
Published: 2023-07-18 17:16:16
License: 暂无描述

Hugging Face2023-07-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/FredZhang7/all-scam-spam

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含42,619条预处理过的短信和电子邮件的大型语料库，涵盖了43种语言。其中，`is_spam=1`表示垃圾信息，`is_spam=0`表示正常信息。此外，还包括了1,040条平衡数据，这些数据由人工收集并标注，涉及大约10种语言，包括日常对话和诈骗邮件。为了使短信和电子邮件的文本格式一致，电子邮件的主题和内容之间用两个换行符分隔。

提供机构：

FredZhang7

原始信息汇总

数据集概述

基本信息

许可协议：Apache-2.0
支持语言：43种语言，包括英语、中文、西班牙语等。
任务类别：
- 文本分类
- 零样本分类
标签：自然语言处理（NLP）、内容审核
数据集大小：10,000 < n < 100,000

数据内容

数据量：42,619条预处理文本消息和电子邮件。
数据类型：人类发送的文本消息和电子邮件。
标注信息：is_spam=1 表示垃圾邮件，is_spam=0 表示正常邮件。
数据平衡：包含1,040行平衡数据，涉及约10种语言的日常对话和诈骗邮件。

数据处理

预处理算法：
- spam_assassin.js 和 spam_assassin.py
- enron_spam.py

数据格式

文本格式：为统一短信和电子邮件的文本格式，电子邮件的主题和内容通过两个换行符分隔。

使用建议

若基于此数据集训练模型，建议添加来自 FredZhang7/toxi-text-3M 的 is_toxic=0 行数据，确保这些数据不是垃圾邮件。

搜集汇总

数据集介绍

构建方式

在数字通信领域，垃圾信息的识别一直是文本分类任务中的关键挑战。本数据集通过精心设计的数据采集与标注流程构建而成，涵盖了43种语言的42,619条预处理文本消息与电子邮件。其中，1,040条平衡数据由人工收集并标注，结合了日常对话与欺诈邮件的内容，并借助ChatGPT辅助完成标注工作。数据预处理环节采用了spam_assassin.js、spam_assassin.py及enron_spam.py等算法，确保了文本格式的统一性与数据质量。

特点

该数据集以其多语言覆盖与精细标注而著称，囊括了挪威语、西班牙语、索马里语、加泰罗尼亚语、南非荷兰语、意大利语、荷兰语、印地语、威尔士语、阿拉伯语、瑞典语、捷克语、波兰语、德语、立陶宛语、阿尔巴尼亚语、乌克兰语、他加禄语、斯洛文尼亚语、克罗地亚语、英语、芬兰语、越南语、印尼语、丹麦语、韩语、保加利亚语、马拉地语、日语、孟加拉语、罗马尼亚语、葡萄牙语、法语、匈牙利语、土耳其语、中文、马其顿语、乌尔都语、斯洛伐克语、尼泊尔语、爱沙尼亚语、斯瓦希里语及俄语等多样语种。数据集中垃圾信息与非垃圾信息的比例经过平衡处理，适用于文本分类与零样本分类任务，为跨语言垃圾信息检测研究提供了丰富资源。

使用方法

在自然语言处理与内容审核应用中，本数据集可直接用于训练或评估垃圾信息检测模型。使用时需注意文本格式的统一性，电子邮件主题与内容之间以两个换行符分隔，确保与短信消息的格式一致。为提升模型性能，建议结合FredZhang7/toxi-text-3M数据集中的非垃圾文本进行数据增强，但需谨慎筛选以避免引入垃圾信息。数据集支持多种下游任务，包括多语言文本分类与零样本分类，为研究人员与开发者提供了灵活的应用场景。

背景与挑战

背景概述

随着数字通信技术的飞速发展，垃圾信息与诈骗内容的泛滥已成为全球性挑战，对网络安全和用户体验构成严重威胁。FredZhang7/all-scam-spam数据集由研究人员FredZhang7于近期构建，旨在提供一个涵盖43种语言、包含42,619条预处理文本消息和电子邮件的大规模语料库，专门用于垃圾信息检测与分类研究。该数据集的核心研究问题聚焦于多语言环境下的文本内容安全，通过人工标注与ChatGPT辅助相结合的方式，精心收集并标注了1,040条平衡数据，涵盖日常对话与诈骗邮件等多种场景。其创建不仅丰富了自然语言处理领域在内容审核与零样本分类任务中的资源，还为跨语言垃圾信息识别模型的开发提供了重要支撑，推动了相关领域的技术进步与应用实践。

当前挑战

该数据集致力于解决多语言垃圾信息检测的复杂问题，其核心挑战在于如何有效识别和分类不同语言与文化背景下的诈骗与垃圾内容，这要求模型具备强大的跨语言泛化能力和对语义细微差别的敏感度。在构建过程中，研究人员面临数据收集与标注的艰巨任务，需手动处理约10种语言的平衡数据，并依赖ChatGPT辅助以确保质量，同时通过预处理算法如spam_assassin.js和enron_spam.py统一短信与电子邮件的格式，以保持数据一致性。此外，整合来自多个外部源的数据，如sms_spam和enron_spam_data，增加了数据清洗与融合的复杂性，这些挑战共同凸显了在多语言环境下构建高质量、可扩展内容审核数据集的难度。

常用场景

经典使用场景

在自然语言处理领域，垃圾信息检测一直是文本分类任务的核心挑战之一。FredZhang7/all-scam-spam数据集以其涵盖43种语言、超过4.2万条预处理文本的规模，为多语言垃圾信息识别提供了丰富的实验素材。该数据集通过平衡的标注数据，支持研究者构建和评估跨语言分类模型，尤其在零样本分类场景下，能够验证模型在未见语言中的泛化能力，推动了多语言NLP技术的发展。

实际应用

在实际应用中，该数据集可直接服务于电子邮件服务商、社交媒体平台及即时通讯软件的垃圾信息过滤系统。通过训练基于该数据集的模型，企业能够实现自动化、多语言的垃圾内容识别，降低用户受到诈骗或骚扰的风险。此外，在网络安全领域，它可用于增强钓鱼邮件检测能力，保护个人与组织的数字资产安全，提升整体网络环境的清洁度。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，例如基于多语言BERT的垃圾信息分类模型，以及利用零样本学习技术进行跨语言检测的探索。这些工作常引用数据集中的平衡标注部分，验证其在低资源语言上的性能。同时，该数据集常与FredZhang7/toxi-text-3M等毒性文本数据集结合使用，以构建更全面的内容审核系统，推动了多任务学习在文本安全领域的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集