NUS SMS Corpus
收藏github2024-01-20 更新2024-05-31 收录
下载链接:
https://github.com/WING-NUS/nus-sms-corpus
下载链接
链接失效反馈官方服务:
资源简介:
这是一个由新加坡国立大学计算机科学系收集的SMS(短消息服务)消息语料库。该数据集包含2015年3月9日从语料库中提取的67,093条SMS消息,主要来自新加坡人和大多数来自大学的学生。这些消息是由志愿者提供的,他们知道他们的贡献将被公开。数据收集者尽可能收集了关于消息和发送者的元数据,以便进行不同类型的分析。
This is an SMS (Short Message Service) message corpus collected by the Department of Computer Science, National University of Singapore. The dataset contains 67,093 SMS messages extracted from the corpus on March 9, 2015, mainly originating from Singaporeans, most of whom are university students. These messages were provided by volunteers who were aware that their contributions would be made public. The data collectors gathered as much metadata about the messages and their senders as possible to enable various types of analysis.
创建时间:
2016-11-07
原始信息汇总
NUS SMS Corpus
数据集概述
NUS SMS Corpus 是一个包含短消息服务(SMS)文本的数据集,提供了英语和中文两种语言的短信数据。
数据格式与大小
- 语言: 英语、中文
- 文件格式: SQL、XML、JSON
- 大小:
- 英语:
- SQL: 2,045K
- XML: 2,359K
- JSON: 2,740K
- 中文:
- SQL: 979K
- XML: 1,182K
- JSON: 1,700K
- 英语:
- 消息数量:
- 英语: 55,835
- 中文: 31,465
引用信息
请在使用该数据集时引用以下论文: Tao Chen and Min-Yen Kan (2013). Creating a Live, Public Short Message Service Corpus: The NUS SMS Corpus. Language Resources and Evaluation, 47(2)(2013), pages 299-355.
数据集来源
该数据集已添加到 Kaggle。
搜集汇总
数据集介绍

构建方式
NUS SMS Corpus的构建源于对短消息服务(SMS)数据的系统性收集与整理。该数据集通过公开渠道获取了大量的英文和中文短信,涵盖了多样化的主题和语境。数据经过严格的清洗和标注,确保其质量和一致性。研究人员采用了SQL、XML和JSON三种格式进行存储,以便于不同应用场景下的使用。数据集的构建过程遵循了透明和可复现的原则,确保了其科学性和可靠性。
特点
NUS SMS Corpus以其丰富的语言多样性和广泛的应用场景而著称。数据集包含了超过55,835条英文短信和31,465条中文短信,涵盖了日常对话、商业信息、广告推送等多种类型。每条短信都经过细致的分类和标注,便于研究人员进行深入分析。此外,数据集提供了多种文件格式,适应不同的数据处理需求,极大地提升了其灵活性和实用性。
使用方法
NUS SMS Corpus的使用方法简便而高效。用户可以通过下载SQL、XML或JSON格式的文件,快速导入到各类数据分析工具中进行处理。数据集适用于自然语言处理、文本挖掘、情感分析等多个研究领域。在使用过程中,用户需遵循引用规范,确保学术研究的透明性和可追溯性。通过参与Kaggle平台上的相关竞赛,用户还可以进一步探索数据集的潜在应用价值。
背景与挑战
背景概述
NUS SMS Corpus是由新加坡国立大学的研究团队于2013年创建的一个公开的短消息服务(SMS)语料库,主要研究人员包括Tao Chen和Min-Yen Kan。该语料库旨在为自然语言处理(NLP)领域的研究者提供一个真实、多样化的短信数据集,以支持文本分类、情感分析、语言模型训练等多种研究任务。语料库包含英语和中文两种语言的短信,分别以SQL、XML和JSON格式提供,总计包含超过87,000条短信。该数据集的发布为短文本分析领域的研究提供了重要的数据支持,推动了相关技术的发展。
当前挑战
NUS SMS Corpus在构建过程中面临了多方面的挑战。首先,短信文本通常包含大量的非正式语言、缩写、拼写错误和符号,这为文本预处理和标准化带来了困难。其次,短信的隐私性和敏感性使得数据收集和公开面临法律和伦理问题,研究团队需要在确保数据匿名化的同时,保持数据的真实性和多样性。此外,短信的语言风格和内容因文化背景和用户群体而异,如何构建一个具有代表性的多语言语料库也是一个重要的挑战。这些挑战不仅影响了数据集的构建过程,也对后续的研究和应用提出了更高的要求。
常用场景
经典使用场景
NUS SMS Corpus 数据集广泛应用于自然语言处理领域,特别是在短文本分析和信息提取方面。研究者利用该数据集进行短信文本的分类、情感分析和语言模型训练,以探索短信语言的特性和规律。
解决学术问题
该数据集解决了短文本处理中的多个学术问题,如短信语言的标准化处理、多语言文本的对比分析以及短信文本的情感倾向识别。通过提供大量真实的短信数据,研究者能够更准确地训练和验证模型,提升短文本处理的精度和效率。
衍生相关工作
基于 NUS SMS Corpus 数据集,研究者们开展了多项经典工作,如短信文本的情感分析模型、多语言短信分类算法以及短信语言的生成模型。这些工作不仅推动了短文本处理技术的发展,也为相关领域的研究提供了宝贵的数据支持和理论依据。
以上内容由遇见数据集搜集并总结生成



