Large Movie Review Dataset v1.0

github2020-05-28 更新2024-05-31 收录

下载链接：

https://github.com/RichardChangCA/IMDB_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含电影评论及其相关的二元情感极性标签，旨在作为情感分类的基准。数据集核心部分包含50,000条评论，均匀分为25,000条训练集和25,000条测试集，标签分布平衡（25k正向和25k负向）。此外，还包括50,000条未标记文档用于无监督学习。数据集中，任何电影的评论不超过30条，训练和测试集中的电影不重叠，以避免通过记忆电影特定术语及其关联标签来获得显著性能。在标记的训练/测试集中，负面评论得分<= 4/10，正面评论得分>= 7/10。无监督集中，任何评分的评论都被包括，且评分大于5和小于等于5的评论数量相等。

This dataset comprises movie reviews along with their associated binary sentiment polarity labels, designed to serve as a benchmark for sentiment classification. The core of the dataset includes 50,000 reviews, evenly divided into 25,000 for training and 25,000 for testing, with a balanced label distribution (25k positive and 25k negative). Additionally, it includes 50,000 unlabeled documents for unsupervised learning. In the dataset, no movie has more than 30 reviews, and the movies in the training and test sets do not overlap, to prevent significant performance gains from memorizing movie-specific terms and their associated labels. In the labeled training/test sets, negative reviews have scores <= 4/10, and positive reviews have scores >= 7/10. In the unsupervised set, reviews of any score are included, with an equal number of reviews scoring above 5 and those scoring 5 or below.

创建时间：

2019-10-18

原始信息汇总

数据集概述

数据集名称

Large Movie Review Dataset v1.0

数据集目的

该数据集用于情感分类的基准测试，包含电影评论及其相关的二元情感极性标签。

数据集内容

数据集结构

核心数据集：包含50,000条评论，分为25,000条训练集和25,000条测试集，标签分布平衡（25k正向和25k负向）。
无监督学习数据集：额外包含50,000条未标记文档。

数据集特点

对于同一电影，最多允许30条评论，以避免评论间的相关性。
训练集和测试集中的电影不重叠，避免通过记忆电影特定术语和标签相关性来提高性能。
在标记的训练/测试集中，负向评论评分≤4/10，正向评论评分≥7/10。
无监督数据集中，任何评分的评论都被包括，且评分大于5和小于等于5的评论数量相等。

文件结构

文件组织

训练集和测试集：分别对应[train/]和[test/]目录。
标签分类：每个目录下包含[pos/]和[neg/]子目录，分别存放正向和负向评论。
文件命名：评论文本文件遵循[[id]_[rating].txt]命名规则，其中[id]是唯一ID，[rating]是1-10的星级评分。
URL文件：包含每个评论的IMDb URL，格式为[urls_[pos, neg, unsup].txt]。
特征文件：包含已分词的词袋特征，存储为.feat文件，使用LIBSVM格式。
词汇表：[imdb.vocab]文件存储了与特征索引对应的文本令牌。
预期评分文件：[imdbEr.txt]包含[imdb.vocab]中每个令牌的预期评分。

引用信息

使用此数据集时，请引用2011年ACL会议论文，该论文介绍了此数据集并提供了分类结果以供比较。

搜集汇总

数据集介绍

构建方式

Large Movie Review Dataset v1.0的构建基于电影评论及其相关的二元情感极性标签，旨在作为情感分类的基准。数据集包含50,000条评论，均匀分为25,000条训练集和25,000条测试集，确保标签分布平衡。此外，还提供了50,000条未标注的评论用于无监督学习。为避免同一电影评论的评分相关性，每部电影的评论数量不超过30条。训练集和测试集的电影互不重叠，确保模型不会通过记忆特定电影的词汇来获得性能提升。

特点

该数据集的显著特点在于其平衡的标签分布和严格的构建规则。训练集和测试集均包含25,000条正面和25,000条负面评论，确保了情感分类任务的公平性。此外，数据集还提供了已分词的词袋模型特征，存储在LIBSVM格式的.feat文件中，便于直接用于机器学习实验。未标注的评论集则为无监督学习提供了丰富的资源。

使用方法

使用该数据集时，用户可以从[train/]和[test/]目录中分别获取训练和测试数据，每个目录下包含[pos/]和[neg/]子目录，分别存储正面和负面评论。评论文本以[id]_[rating].txt的格式命名，便于识别和处理。此外，数据集还提供了IMDb评论的URL链接和已分词的词袋模型特征，用户可以直接利用这些特征进行情感分类实验。

背景与挑战

背景概述

Large Movie Review Dataset v1.0，由Andrew L. Maas等人于2011年创建，旨在为情感分类提供一个标准基准。该数据集包含了50,000条电影评论，分为25,000条训练集和25,000条测试集，每部分均平衡地包含25,000条正面和负面评论。此外，还提供了50,000条未标记的评论用于无监督学习。数据集的设计考虑了避免同一电影评论的重复性，确保了训练集和测试集之间的电影不重叠，从而防止通过记忆特定电影的词汇来提高分类性能。该数据集的发布对情感分析领域产生了深远影响，为研究人员提供了一个标准化的工具来评估和比较不同的情感分类算法。

当前挑战

Large Movie Review Dataset v1.0在构建过程中面临了多个挑战。首先，确保数据集的平衡性和代表性是一个重要问题，因为情感分类需要大量的标注数据，而获取高质量的标注数据成本高昂。其次，避免同一电影评论的重复性以及确保训练集和测试集的电影不重叠，增加了数据收集和处理的复杂性。此外，数据集还包含了未标记的评论，这为无监督学习提供了可能，但也增加了数据处理的难度。最后，如何有效地将这些评论转化为机器学习算法可用的格式，如使用LIBSVM格式的特征文件，也是一个技术挑战。

常用场景

经典使用场景

Large Movie Review Dataset v1.0 主要用于情感分类任务，特别是在电影评论的二元情感极性分析中。该数据集包含50,000条电影评论，分为25,000条训练集和25,000条测试集，每部分均平衡地包含正面和负面评论。此外，还提供了50,000条未标注的评论，适用于无监督学习。通过这些数据，研究者和开发者可以构建和评估情感分析模型，特别是在处理文本情感分类时，该数据集提供了一个标准化的基准。

实际应用

在实际应用中，Large Movie Review Dataset v1.0 被广泛用于构建和优化情感分析系统，如在线评论的自动分类、产品推荐系统中的用户反馈分析等。通过分析用户对电影的情感倾向，企业可以更好地理解消费者需求，优化产品和服务。此外，该数据集还被用于社交媒体监控、舆情分析等领域，帮助机构和公司及时捕捉公众情绪，做出相应的决策和调整。

衍生相关工作

基于Large Movie Review Dataset v1.0，许多经典工作得以展开，特别是在情感分析和文本分类领域。例如，Maas等人（2011）在其论文中首次引入了该数据集，并展示了如何利用词向量进行情感分析。随后，许多研究者在此基础上进一步探索了深度学习模型在情感分类中的应用，如卷积神经网络（CNN）和循环神经网络（RNN）。此外，该数据集还启发了大量关于无监督学习和半监督学习的研究，推动了情感分析技术的不断进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集