Mobile01 Corpus
收藏数据集概述
数据集名称
Mobile01 Corpus
数据集目的
用于研究意见垃圾邮件/垃圾邮件发送者检测,特别是针对2013年4月16日BBC报道的三星在台湾的“假网络评论”案例。
数据来源
包含2011年1月至2012年5月期间Mobile01网站上三星板块的帖子和用户资料,以及两个内部保密表格记录的垃圾帖子数据。
数据集内容
- 垃圾帖子检测:
- 首次发帖检测:
- 训练集:
data/first_post/train.json - 测试集:
data/first_post/test.json和data/first_post/test_star.json
- 训练集:
- 回复检测:
- 训练集:
data/reply/train.json - 测试集:
data/reply/test.json和data/reply/test_star.json
- 训练集:
- 首次发帖检测:
- 垃圾邮件发送者检测:
- 训练集:
spammer/train.json - 测试集:
spammer/test.json
- 训练集:
- 额外信息:
- 帖子元数据:
data/thread_info.json
- 帖子元数据:
数据格式
-
所有文件均为JSON格式。
-
帖子元数据包括:
content,is_spam,nfloor,pnum,thid,time,uid,uname。 -
用户资料元数据包括:
is_spam,login_time,n_eff_posts,n_posts,n_replies,n_threads,p_phone_section,reg_time,score,uid。 -
帖子示例: yaml { content: 現在智慧型手機市場成熟了,機海搞不好反而會收到效果各階層的需求市場都可以買單這招好像走對了|挖鼻孔|, is_spam : True, nfloor : 4, pnum : 1, thid : 2708016, time : 2012-04-26T17:47:00.000Z, uid : 2092614, uname : imCH }
-
非垃圾邮件发送者示例: yaml { is_spam : False, login_time : 2014-04-22T00:00:00.000Z, n_eff_posts : 7, n_replies : 7, n_threads : 0, p_phone_section : 100, reg_time : 2011-04-19T00:00:00.000Z, score : 0, uid : 1955698, }
数据集语言和编码
- 语言:繁体中文
- 编码:UTF-8
下载链接
引用信息
- 引用论文:
- Yu-Ren Chen and Hsin-Hsi Chen (2015). “Opinion Spam Detection in Web Forum: A Real Case Study.” In Proceedings of 24th International World Wide Web Conference (WWW 2015), May 18-22, 2015, Florence, Italy. DOI: 链接
- Yu-Ren Chen and Hsin-Hsi Chen (2015). “Opinion Spammer Detection in Web Forum.” Proceedings of the 38th Annual ACM SIGIR Conference (SIGIR 2015), August 9-13, 2015, Santiago, Chile. DOI: 链接




