Deceptive-Opinion-Spam-Corpus

github2021-10-19 更新2024-05-31 收录

下载链接：

https://github.com/anusuyababy/Deceptive-Opinion-Spam-Corpus-using-deep-learning-models

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含20家芝加哥酒店的真实和欺骗性评论，分为正面和负面情绪。正面评论包括400条真实评论和400条欺骗性评论，负面评论同样包括400条真实评论和400条欺骗性评论。

This dataset comprises genuine and deceptive reviews from 20 hotels in Chicago, categorized into positive and negative sentiments. The positive reviews include 400 genuine and 400 deceptive reviews, while the negative reviews also consist of 400 genuine and 400 deceptive reviews.

创建时间：

2021-09-09

原始信息汇总

数据集概述

数据集名称

Deceptive-Opinion-Spam-Corpus-using-deep-learning-models

数据集内容

正面评价：
- 400条真实正面评价，来源：TripAdvisor
- 400条虚假正面评价，来源：Mechanical Turk
负面评价：
- 400条真实负面评价，来源：Expedia, Hotels.com, Orbitz, Priceline, TripAdvisor, Yelp
- 400条虚假负面评价，来源：Mechanical Turk

数据集结构

每个数据集包含20条评价，对应20家芝加哥最受欢迎的酒店。

酒店列表

affinia: Affinia Chicago (现为MileNorth, A Chicago Hotel)
allegro: Hotel Allegro Chicago - a Kimpton Hotel
amalfi: Amalfi Hotel Chicago
ambassador: Ambassador East Hotel (现为PUBLIC Chicago)
conrad: Conrad Chicago
fairmont: Fairmont Chicago Millennium Park
hardrock: Hard Rock Hotel Chicago
hilton: Hilton Chicago
homewood: Homewood Suites by Hilton Chicago Downtown
hyatt: Hyatt Regency Chicago
intercontinental: InterContinental Chicago
james: James Chicago
knickerbocker: Millennium Knickerbocker Hotel Chicago
monaco: Hotel Monaco Chicago - a Kimpton Hotel
omni: Omni Chicago Hotel
palmer: The Palmer House Hilton
sheraton: Sheraton Chicago Hotel and Towers
sofitel: Sofitel Chicago Water Tower
swissotel: Swissotel Chicago
talbott: The Talbott Hotel

参考文献

[1] M. Ott, Y. Choi, C. Cardie, and J.T. Hancock. 2011. Finding Deceptive Opinion Spam by Any Stretch of the Imagination. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies.
[2] M. Ott, C. Cardie, and J.T. Hancock. 2013. Negative Deceptive Opinion Spam. In Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.

搜集汇总

数据集介绍

构建方式

Deceptive-Opinion-Spam-Corpus数据集的构建基于对芝加哥20家热门酒店的真实与虚假评论的收集。数据集分为正面和负面情感评论两部分，分别来源于TripAdvisor和Mechanical Turk等平台。正面评论包括400条真实和400条虚假评论，负面评论同样包含400条真实和400条虚假评论。每条评论均针对每家酒店的20条评论进行收集，确保了数据的广泛性和代表性。数据预处理过程在相关论文中有详细描述，确保了数据的一致性和可靠性。

使用方法

使用Deceptive-Opinion-Spam-Corpus数据集时，用户可以通过加载不同折叠的数据进行模型训练和验证。数据集支持多种深度学习模型（如RoBERTa、BERT、XLNet）和传统机器学习模型的实验。用户可以根据需要选择正面或负面评论数据集，或结合两者进行综合研究。数据集的详细描述和预处理步骤可参考相关论文，确保实验的可重复性和结果的可靠性。

背景与挑战

背景概述

Deceptive-Opinion-Spam-Corpus数据集由康奈尔大学的M. Ott、Y. Choi、C. Cardie和J.T. Hancock等研究人员于2011年首次提出，旨在解决在线评论中的虚假意见检测问题。该数据集包含来自20家芝加哥酒店的真实和虚假评论，涵盖了正面和负面情感。通过结合TripAdvisor、Mechanical Turk、Expedia等多个平台的数据，研究人员构建了一个包含1600条评论的语料库，为虚假评论检测领域提供了重要的基准数据。该数据集在自然语言处理领域具有广泛的影响力，尤其是在情感分析和虚假信息检测方面，推动了相关算法的研究与应用。

当前挑战

Deceptive-Opinion-Spam-Corpus数据集在构建和应用过程中面临多重挑战。首先，虚假评论的标注依赖于人工标注，其准确性和一致性难以完全保证，可能导致模型训练中的噪声问题。其次，虚假评论的语言风格和真实评论高度相似，使得分类任务极具挑战性，尤其是在情感极性较强的情况下。此外，数据集的规模相对较小，限制了深度学习模型的性能提升，尤其是在需要大量训练数据的预训练模型（如BERT、RoBERTa）中表现尤为明显。最后，数据集的跨平台特性虽然增加了多样性，但也引入了数据分布不一致的问题，进一步增加了模型泛化的难度。

常用场景

经典使用场景

Deceptive-Opinion-Spam-Corpus数据集在自然语言处理领域中被广泛应用于虚假评论检测的研究。通过分析酒店评论中的语言特征，研究者能够训练和评估各种深度学习模型，如BERT、RoBERTa和XLNet，以识别和区分真实与虚假的评论。这一数据集的使用不仅限于学术研究，还在实际应用中为在线平台提供了识别和过滤虚假评论的工具。

解决学术问题

该数据集解决了虚假评论检测中的关键问题，即如何通过自然语言处理技术有效识别和分类虚假评论。通过提供大量标注的真实和虚假评论数据，研究者能够开发出更精确的算法，提升虚假评论检测的准确性和可靠性。这一进展对于维护在线评论平台的诚信和用户体验具有重要意义。

实际应用

在实际应用中，Deceptive-Opinion-Spam-Corpus数据集被用于开发和优化在线评论平台的虚假评论检测系统。通过利用该数据集训练的模型，平台能够自动识别并过滤掉潜在的虚假评论，从而提升评论的可信度和用户的信任感。这对于维护平台的声誉和用户体验具有重要价值。

数据集最近研究