SMS Spam Collection v.1|垃圾短信识别数据集|数据分析数据集
收藏SMS Spam Collection v.1 数据集概述
描述
SMS Spam Collection v.1(以下简称语料库)是一组用于SMS垃圾邮件研究的标记短信集合。该语料库包含5,574条英文短信,标记为合法(ham)或垃圾邮件(spam)。
编译来源
该语料库从以下免费或免费用于研究的网络资源中收集:
- 从Grumbletext网站手动提取的425条SMS垃圾邮件信息。Grumbletext是一个英国论坛,手机用户在此公开声称收到SMS垃圾邮件,大多数情况下没有报告收到的垃圾邮件内容。识别这些垃圾邮件文本是一项非常困难且耗时的任务,需要仔细扫描数百个网页。
- 从Caroline Tag的博士论文中收集的450条SMS合法信息。
- 从新加坡国立大学(NUS)SMS语料库(NSC)中提取的3,375条SMS合法信息。NSC是一个约10,000条合法信息的语料库,主要来自新加坡人,大部分来自新加坡国立大学的学生。这些信息由志愿者提供,并被告知他们的贡献将被公开。
- 从José María Gómez Hidalgo创建的SMS Spam Corpus v.0.1 Big中提取的1,002条SMS合法信息和322条垃圾邮件信息。
统计数据
该语料库包含:
- SMS Spam Collection v.1(文本文件:smsspamcollection)共有4,827条合法信息(86.6%)和747条垃圾邮件(13.4%)。
格式
文件每行包含一条信息。每行由两列组成:一列是标签(ham或spam),另一列是原始文本。例如:
ham 你在做什么?你好吗? ham 好的,只是在和你开玩笑... ham 不要这么早说...你已经知道了然后才说... ham 我的号码在卢顿0125698789,如果你在附近给我打电话!H* ham Siva在宿舍哈哈:-. ham 因为我刚才和darren出去购物,我打电话问他想要什么礼物。然后他开始猜我和谁在一起,最后他猜对了。 spam 免费消息:发送:CALL到号码:86888并领取您的奖励,现在从您的手机开始使用3小时通话时间!订阅6GBP/月包含3小时16停止?发送Stop spam 阳光问答!如果你能说出澳大利亚的首都,就可以赢得一台超级索尼DVD录像机!发送MQUIZ到82277。B spam 紧急!您的手机号码07808726822在2003年9月2日获得了L2,000奖金奖!这是我们第二次尝试联系您!拨打0871-872-9758 BOX95QU
注意:消息未按时间顺序排序。
使用
我们在这篇正在审阅的论文中对该语料库进行了全面研究。这项工作提供了多项统计数据、研究和多种机器学习方法的基线结果。
关于
该语料库由Tiago Agostinho de Almeida和José María Gómez Hidalgo收集。
我们感谢Dr. Min-Yen Kan及其团队提供NUS SMS语料库。
许可/免责声明
如果您发现该语料库有用,请在您的论文、研究等中引用之前的论文和网页:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/。
SMS Spam Collection v.1是免费提供的,但有限制:
- Tiago Agostinho de Almeida和José María Gómez Hidalgo拥有SMS Spam Collection v.1的版权。
- 无担保/风险自负。该语料库是免费提供的。因此,该语料库是“按原样”提供的,没有任何形式的担保,包括但不限于可销售性、适合特定目的或不侵权的担保。您对语料库的使用、分发、修改、复制和发布以及由此产生的任何衍生作品(统称为“您的语料库使用”)负全部责任。您对您的语料库使用承担全部风险。您同意赔偿并使版权持有人及其附属机构免受任何索赔的影响,这些索赔与您的语料库使用有关。
- 责任限制。在任何情况下,版权持有人或其附属机构或语料库贡献编辑均不对间接、特殊、偶然或后果性损害负责,包括但不限于商誉损失或其他任何商业损害或损失,即使已被告知可能发生此类损害,并且无论索赔是基于合同、侵权或其他法律或衡平法理论,与语料库、您的语料库使用或本许可协议有关。

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
Agricultural Pests Dataset
Agricultural Pests Classification
kaggle 收录