five

NUS SMS Corpus

收藏
arXiv2011-12-12 更新2024-06-21 收录
下载链接:
http://wing.comp.nus.edu.sg/SMSCorpus
下载链接
链接失效反馈
官方服务:
资源简介:
NUS SMS Corpus是由新加坡国立大学创建的一个公开的短消息服务(SMS)语料库,旨在解决现有研究中SMS数据访问受限的问题。该数据集通过多种方法收集,特别关注隐私保护,以减轻贡献者的担忧。目前,该数据集已收集约60,000条消息,主要关注英语和汉语。数据集每月更新,以XML和SQL转储形式发布,连同语料库统计信息,旨在为广泛的比较研究提供代表性数据。NUS SMS Corpus的应用领域包括社会语言学、语言分析和文本输入改进等,旨在理解和分析数字时代的个人通信方式。

The NUS SMS Corpus is a publicly available short message service (SMS) corpus developed by the National University of Singapore, designed to address the issue of restricted access to SMS data in existing research. Collected through multiple methodologies, the corpus places special emphasis on privacy protection to mitigate the concerns of its contributors. Currently, the corpus holds approximately 60,000 messages, predominantly in English and Mandarin Chinese. The dataset is updated monthly and released in XML and SQL dump formats, along with corpus statistics, aiming to provide representative data for a wide range of comparative studies. Application areas of the NUS SMS Corpus include sociolinguistics, linguistic analysis, text input improvement, and other related fields, with the goal of understanding and analyzing personal communication patterns in the digital era.
提供机构:
新加坡国立大学
创建时间:
2011-12-12
搜集汇总
数据集介绍
main_image_url
构建方式
NUS SMS Corpus 是一个由新加坡国立大学创建的公共短信语料库,旨在解决现有研究中缺乏公开短信语料库的问题。该语料库的构建过程采用了多种方法,包括网络转录、短信导出和短信上传等,以收集英语和中文短信。在收集过程中,特别注重隐私保护,对短信内容进行匿名化处理,以确保用户隐私安全。此外,NUS SMS Corpus 还会定期发布新的版本,并提供在线浏览和下载功能,方便研究人员使用。
特点
NUS SMS Corpus 的特点在于其规模庞大、语言多样、收集方法多样、隐私保护措施完善等。该语料库是目前公开的最大的英语和中文短信语料库之一,包含来自不同国家、不同年龄段、不同背景的用户的短信,具有很高的代表性。同时,该语料库还收集了短信的元数据,例如发送者和接收者的电话号码、发送时间等信息,方便研究人员进行多方面的分析。
使用方法
研究人员可以使用 NUS SMS Corpus 进行多种自然语言处理研究,例如短信文本分析、短信垃圾邮件检测、短信作者识别等。该语料库提供了多种格式,包括 XML 和 SQL 数据库,方便研究人员进行数据处理和分析。此外,该语料库还提供了在线浏览和下载功能,方便研究人员获取和使用数据。
背景与挑战
背景概述
短信服务(SMS)消息是当今数字时代个人通信的重要方式。NUS SMS语料库是为了解决现有研究难以使用相同原始短信数据进行比较研究的问题而创建的。该语料库由新加坡国立大学的陈涛和甘敏彦于2010年10月创建,旨在建立一个包含大量英语和普通话短信的公开语料库,以促进对短信通信的社会、语言和可用性研究。该语料库采用了多种方法收集数据,并特别关注隐私问题,以解决贡献者的担忧。NUS SMS语料库的创建对相关领域产生了重要影响,为研究人员提供了一个公开的、大规模的短信语料库,使其能够进行比较研究,并深入了解个人非正式通信的特点和演变。
当前挑战
NUS SMS语料库面临的主要挑战包括:1)收集大量短信的困难,因为短信往往包含个人或敏感信息;2)构建过程中所遇到的隐私问题,需要采取适当的匿名化措施来保护贡献者的隐私;3)确保语料库的准确性和代表性,避免转录错误和虚假数据。此外,由于短信的私人性质,收集过程中还可能遇到贡献者对隐私泄露的担忧,以及不同手机平台之间收集方法的兼容性问题。
常用场景
经典使用场景
NUS SMS Corpus数据集的创建旨在填补公开可用的短信语料库的空白,该语料库主要关注英语和中文短信。该数据集的收集方法包括网络转录、短信导出和短信上传,旨在提高收集过程的准确性和效率。NUS SMS Corpus数据集已广泛应用于自然语言处理、文本挖掘、社会语言学等领域的研究,例如短信语言分析、作者识别、垃圾短信检测等。
实际应用
NUS SMS Corpus数据集在实际应用中具有广泛的应用前景。例如,该数据集可用于开发智能短信分析工具,帮助用户识别垃圾短信、分析短信内容、进行情感分析等。此外,该数据集还可用于开发基于短信的自然语言处理应用,例如机器翻译、文本生成等。
衍生相关工作
NUS SMS Corpus数据集的创建和发布,激发了大量相关研究工作。例如,一些研究者利用该数据集进行短信语言分析、作者识别、垃圾短信检测等方面的研究。此外,一些研究者还基于该数据集开发了新的短信收集方法,例如利用社交媒体平台收集短信数据。NUS SMS Corpus数据集的出现,为短信研究提供了重要的数据基础,推动了相关领域的研究进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作