Mobile01 Corpus

github2022-06-01 更新2024-05-31 收录

下载链接：

https://github.com/ntunlplab/Mobile01-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于研究意见垃圾邮件/垃圾邮件发送者检测，包含了2011年1月至2012年5月期间Mobile01上三星板块的帖子和用户资料。数据集分为训练集和测试集，用于垃圾邮件检测和垃圾邮件发送者检测。

This dataset is utilized for the investigation of opinion spam/spammer detection, encompassing posts and user profiles from the Samsung section of Mobile01 between January 2011 and May 2012. The dataset is partitioned into training and testing sets, designated for spam detection and spammer detection purposes.

创建时间：

2022-05-31

原始信息汇总

数据集概述

数据集名称

Mobile01 Corpus

数据集目的

用于研究意见垃圾邮件/垃圾邮件发送者检测，特别是针对2013年4月16日BBC报道的三星在台湾的“假网络评论”案例。

数据来源

包含2011年1月至2012年5月期间Mobile01网站上三星板块的帖子和用户资料，以及两个内部保密表格记录的垃圾帖子数据。

数据集内容

垃圾帖子检测：
- 首次发帖检测：
  - 训练集：data/first_post/train.json
  - 测试集：data/first_post/test.json 和 data/first_post/test_star.json
- 回复检测：
  - 训练集：data/reply/train.json
  - 测试集：data/reply/test.json 和 data/reply/test_star.json
垃圾邮件发送者检测：
- 训练集：spammer/train.json
- 测试集：spammer/test.json
额外信息：
- 帖子元数据：data/thread_info.json

数据格式

所有文件均为JSON格式。
帖子元数据包括：content, is_spam, nfloor, pnum, thid, time, uid, uname。
用户资料元数据包括：is_spam, login_time, n_eff_posts, n_posts, n_replies, n_threads, p_phone_section, reg_time, score, uid。
帖子示例： yaml { content: 現在智慧型手機市場成熟了，機海搞不好反而會收到效果各階層的需求市場都可以買單這招好像走對了|挖鼻孔|, is_spam : True, nfloor : 4, pnum : 1, thid : 2708016, time : 2012-04-26T17:47:00.000Z, uid : 2092614, uname : imCH }
非垃圾邮件发送者示例： yaml { is_spam : False, login_time : 2014-04-22T00:00:00.000Z, n_eff_posts : 7, n_replies : 7, n_threads : 0, p_phone_section : 100, reg_time : 2011-04-19T00:00:00.000Z, score : 0, uid : 1955698, }

数据集语言和编码

语言：繁体中文
编码：UTF-8

下载链接

首次发帖检测：链接
回复检测：链接
垃圾邮件发送者检测：链接
帖子元数据：链接

引用信息

引用论文：
- Yu-Ren Chen and Hsin-Hsi Chen (2015). “Opinion Spam Detection in Web Forum: A Real Case Study.” In Proceedings of 24th International World Wide Web Conference (WWW 2015), May 18-22, 2015, Florence, Italy. DOI: 链接
- Yu-Ren Chen and Hsin-Hsi Chen (2015). “Opinion Spammer Detection in Web Forum.” Proceedings of the 38th Annual ACM SIGIR Conference (SIGIR 2015), August 9-13, 2015, Santiago, Chile. DOI: 链接

搜集汇总

数据集介绍

构建方式

Mobile01 Corpus的构建基于2011年1月至2012年5月期间，从Mobile01论坛三星板块中提取的帖子和用户资料。数据来源包括论坛的公开帖子和两份内部保存的垃圾帖子记录。数据集按时间顺序划分为训练集和测试集，涵盖首次发帖和回复的垃圾检测任务，以及垃圾用户检测任务。所有数据以JSON格式存储，包含帖子内容、用户行为及元数据。

特点

该数据集的特点在于其真实性和多样性。它不仅包含了大量的论坛帖子，还提供了详细的用户行为数据，如发帖时间、回复次数、用户注册时间等。此外，数据集还特别标注了垃圾帖子和垃圾用户，为研究者提供了丰富的实验材料。所有文本均采用繁体中文，并以UTF8编码，确保了数据的广泛适用性和易用性。

使用方法

使用Mobile01 Corpus时，研究者可以通过下载提供的JSON文件，直接加载数据进行分析。数据集分为首次发帖、回复和垃圾用户检测三个部分，每个部分都有对应的训练集和测试集。研究者可以利用这些数据进行模型训练和测试，探索垃圾帖子和垃圾用户的检测方法。此外，数据集还提供了线程元数据，帮助研究者更全面地理解论坛的互动结构。

背景与挑战

背景概述

Mobile01 Corpus数据集由台湾大学的研究团队于2015年创建，旨在解决网络论坛中的意见垃圾信息检测问题。该数据集基于2011年至2012年间Mobile01论坛上三星板块的帖子和用户行为数据，涵盖了真实案例中的垃圾评论和用户互动信息。研究团队通过分析首帖和回复中的垃圾信息行为，提出了针对垃圾信息和垃圾信息发布者的检测任务。该数据集在WWW 2015和SIGIR 2015会议上发表，为网络论坛中的垃圾信息检测研究提供了重要的数据支持，推动了相关领域的发展。

当前挑战

Mobile01 Corpus数据集在构建和应用过程中面临多重挑战。首先，意见垃圾信息的检测相较于电子邮件或网页垃圾信息更为复杂，因其内容更具隐蔽性和主观性，难以通过简单的规则或模式识别。其次，数据集的构建依赖于内部保密的垃圾信息记录，数据获取和标注过程存在较高的技术门槛和隐私风险。此外，由于数据集的语言为繁体中文，且编码为UTF-8，跨语言和跨文化的研究者在数据预处理和分析时可能面临额外的技术挑战。这些因素共同构成了该数据集在实际应用中的主要难点。

常用场景

经典使用场景

Mobile01 Corpus数据集在意见垃圾检测领域具有重要应用价值，尤其在分析网络论坛中的虚假评论和垃圾用户行为方面表现突出。该数据集通过提供真实案例中的帖子内容和用户互动信息，为研究者提供了一个丰富的实验平台，用于训练和测试垃圾评论检测模型。其经典使用场景包括对首次发帖和回复的垃圾内容进行分类，以及识别潜在的垃圾用户。

解决学术问题

Mobile01 Corpus数据集有效解决了意见垃圾检测中的关键学术问题，尤其是在区分真实用户与垃圾用户、识别虚假评论方面提供了可靠的数据支持。通过分析用户发帖行为、互动模式以及内容特征，研究者能够开发出更为精准的检测算法，从而提升网络论坛内容的质量和可信度。该数据集的出现填补了意见垃圾检测领域的数据空白，推动了相关研究的深入发展。

衍生相关工作

基于Mobile01 Corpus数据集，研究者们开展了一系列经典工作，例如在WWW 2015和SIGIR 2015会议上发表的相关论文。这些研究不仅提出了高效的垃圾评论检测算法，还深入探讨了垃圾用户的行为特征及其对社区的影响。此外，该数据集还启发了更多关于网络内容可信度评估的研究，为后续的学术探索提供了重要的参考和基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集