dbarbedillo/SMS_Spam_Multilingual_Collection_Dataset

Name: dbarbedillo/SMS_Spam_Multilingual_Collection_Dataset
Creator: dbarbedillo
Published: 2023-01-13 03:07:17
License: 暂无描述

Hugging Face2023-01-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dbarbedillo/SMS_Spam_Multilingual_Collection_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

SMS垃圾邮件多语言收集数据集是一个包含多种语言的短信消息的数据集，这些消息被标记为垃圾邮件或合法邮件。数据集最初包含一组英文短信，后来通过机器翻译扩展到其他语言，包括西班牙语、中文、阿拉伯语、孟加拉语、俄语、葡萄牙语、印尼语、乌尔都语、日语、旁遮普语、爪哇语、土耳其语、韩语、马拉地语、乌克兰语、瑞典语和挪威语。数据集的内容包括多语言文本和相应的标签，其中ham表示非垃圾邮件文本，spam表示垃圾邮件文本。

The SMS Spam Collection Multilingual Dataset is a dataset of short message service (SMS) messages labeled as either spam or legitimate messages across multiple languages. It initially consisted of a set of English SMS messages, and was later expanded via machine translation to include additional languages: Spanish, Chinese, Arabic, Bengali, Russian, Portuguese, Indonesian, Urdu, Japanese, Punjabi, Javanese, Turkish, Korean, Marathi, Ukrainian, Swedish, and Norwegian. The dataset contains multilingual text samples and their corresponding labels, where "ham" denotes non-spam messages and "spam" denotes spam messages.

提供机构：

dbarbedillo

原始信息汇总

SMS Spam Multilingual Collection Dataset

概述

数据集名称: SMS Spam Multilingual Collection Dataset
数据集描述: 包含多种语言的SMS消息，标记为垃圾邮件或合法邮件。

数据集详情

许可: GPL
任务类别: 文本分类
语言: 英语、中文、西班牙语、印地语、法语、德语、阿拉伯语、孟加拉语、俄语、葡萄牙语、印尼语、乌尔都语、日语、旁遮普语、爪哇语、土耳其语、韩语、马拉地语、乌克兰语、瑞典语、挪威语
大小类别: 1K<n<10K

数据内容

文本: 多语言文本
标签: 合法（非垃圾邮件）和垃圾邮件

数据来源

原始英语文本: 来自Kaggle
其他语言文本: 来自Kaggle

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多语言文本分类研究常受限于数据资源的匮乏。本数据集以经典的英文短信垃圾邮件集合为基础，通过机器翻译技术扩展至多种语言。原始英文数据包含5,574条人工标注的短信，随后采用M2M100_418M多语言序列到序列模型，将其翻译为中文、西班牙语、印地语等二十种语言，形成了跨语言的对齐语料库。

特点

该数据集的核心价值在于其广泛的语言覆盖与统一的标注体系。涵盖英语、中文、阿拉伯语等二十种语言，每条短信均标注为“ham”（正常）或“spam”（垃圾），为跨语言垃圾邮件检测研究提供了标准化基准。数据规模适中，介于一千至一万条之间，兼顾了多样性与管理便利性，特别适合用于多语言模型训练与迁移学习实验。

使用方法

研究者可利用本数据集开展多语言文本分类模型的训练与评估。典型应用包括直接训练一个支持多语言的垃圾邮件分类器，或进行跨语言迁移学习实验，例如在资源丰富的语言上训练模型，再迁移至低资源语言。数据以文本与标签对的形式组织，可直接加载至主流机器学习框架，用于模型训练、验证及性能测试。

背景与挑战

背景概述

随着移动通信技术的普及，短信垃圾信息已成为全球性的网络安全威胁，对用户隐私和通信效率构成严峻挑战。在此背景下，dbarbedillo/SMS_Spam_Multilingual_Collection_Dataset应运而生，该数据集由研究人员基于早期英文短信垃圾收集数据集扩展构建，通过机器翻译技术覆盖了包括英语、中文、西班牙语、印地语、法语、德语、阿拉伯语、孟加拉语、俄语、葡萄牙语、印尼语、乌尔都语、日语、旁遮普语、爪哇语、土耳其语、韩语、马拉地语、乌克兰语、瑞典语和挪威语在内的多种语言。其核心研究问题聚焦于跨语言垃圾短信的自动检测与分类，旨在推动自然语言处理领域在文本分类任务中的多语言适应性研究，为全球范围内的反垃圾信息技术提供了重要的数据支撑，自创建以来已在学术界和工业界引发了广泛关注，促进了多语言文本分析模型的发展。

当前挑战

该数据集旨在解决多语言环境下的短信垃圾检测问题，其核心挑战在于语言多样性带来的语义和文化差异，例如不同语言中垃圾信息的表达方式可能迥异，增加了模型泛化难度。构建过程中，主要挑战源于机器翻译的质量控制，原始英文数据通过M2M100_418M模型进行多语言转换，可能导致翻译误差或语境丢失，影响后续分类性能；同时，数据规模相对有限，部分语言样本量不足，可能制约模型训练效果，需进一步优化数据平衡与真实性验证。

常用场景

经典使用场景

在自然语言处理领域，多语言垃圾短信检测是文本分类任务中的经典应用场景。该数据集通过整合英语、中文、西班牙语等多种语言的短信样本，为研究者提供了跨语言垃圾信息识别的统一基准。其经典使用场景在于训练和评估机器学习模型，以区分合法短信与垃圾短信，尤其在多语言环境下，模型需适应不同语言的语法和语义特征，从而提升泛化能力。这一场景不仅推动了文本分类技术的发展，也为全球通信安全提供了数据支持。

实际应用

在实际应用中，该数据集被广泛用于构建智能垃圾短信过滤系统，服务于电信运营商、移动应用开发者和网络安全公司。通过训练基于该数据集的模型，系统能自动识别并拦截多语言垃圾短信，减少用户骚扰和诈骗风险。此外，它还可用于教育领域，作为教学案例帮助学生理解文本分类技术，或用于政策制定者评估垃圾信息治理效果，从而在保护用户隐私和促进健康网络环境方面发挥重要作用。

衍生相关工作

基于该数据集，衍生出多项经典研究工作，包括多语言文本分类算法的优化、跨语言迁移学习模型的开发，以及垃圾短信检测的公平性评估。例如，研究者利用该数据集探索了基于Transformer的预训练模型在多语言场景下的适应性，并提出了改进的翻译增强策略以提升数据质量。这些工作不仅丰富了自然语言处理领域的文献，还为后续多语言垃圾信息治理提供了技术基础，推动了相关开源工具和标准化框架的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集