taptap_review|手游评论数据集|情感分析数据集

github2023-10-02 更新2024-05-31 收录

手游评论

情感分析

下载链接：

https://github.com/anglee0323/Taptap_SentimentAnalysis

下载链接

链接失效反馈

资源简介：

数据集包含手游网站 TapTap 上约 300 款游戏的标签评论，共4888个数据示例。每一行含有`review`和`sentiment`两个参数，其中`review`为用户的评论文本，`sentiment`的值为 1 和 0，用户评论低于 3星(最多5星)被视为 0(不满意)，其他为 1(满意)。两个类别的比例大致为 1:1。

The dataset comprises approximately 300 games' labeled reviews from the mobile gaming website TapTap, totaling 4888 data samples. Each entry includes two parameters: `review` and `sentiment`. The `review` parameter contains the text of user reviews, while the `sentiment` parameter is assigned a value of 1 or 0. Reviews rated below 3 stars (out of a maximum of 5 stars) are classified as 0 (dissatisfied), and all others are classified as 1 (satisfied). The distribution between the two categories is approximately 1:1.

创建时间：

2023-04-20

原始信息汇总

数据集概述

数据集名称

2022年手游市场满意度调研

数据来源

数据集来自PP飞桨公开数据集，基于国内最大的移动手机游戏论坛TapTap，爬取手游用户评论。

数据集内容

数据量：共4888个数据示例，涉及约300款游戏。
数据格式：CSV格式。
数据结构：
- review：用户评论文本。
- sentiment：满意度评分，1代表满意，0代表不满意。
数据划分：按照7:3的比例划分为训练集和测试集。
- train.csv：3422条数据。
- test.csv：1466条数据。

数据集用途

用于分析2022年手游市场的满意度，通过多种方法进行情感极性分析。

分析方法

情感词典分析：基于BosonNLP的情感分析。
机器学习模型：
- 支持向量机(Svm)
- 朴素贝叶斯(Naive_bayes)
- 集成学习(Adaboost)
深度学习模型：
- Bi-LSTM模型
- LSTM模型+Attention机制
迁移学习：bert模型微调。

版权信息

BosonNLP情感词典由玻森数据授权使用。
Bert模型版权由谷歌公司所有。
其他部分根据MIT License开源。

AI搜集汇总

数据集介绍

构建方式

taptap_review数据集的构建基于国内最大的移动手机游戏论坛TapTap，通过爬取用户评论数据，结合情感分析技术，对2022年手游市场的用户满意度进行深入研究。数据集以csv格式存储，包含4888条数据示例，每条数据包含用户评论文本和情感标签，情感标签根据用户评分划分为满意（1）和不满意（0）两类，两类数据比例接近1:1。数据集的构建过程注重数据的多样性和平衡性，确保了后续分析的可靠性。

使用方法

使用taptap_review数据集时，首先需要克隆项目到本地并配置Python环境，安装相关依赖。数据集以csv格式存储，用户可通过修改源代码中的路径参数加载数据。数据集支持多种情感分析方法，包括基于情感词典的极性分析、传统机器学习模型（如SVM、朴素贝叶斯）以及深度学习模型（如Bi-LSTM、BERT微调）。用户可根据需求选择合适的方法进行实验，并通过调整模型参数优化分析结果。实验过程中需注意硬件兼容性问题，确保运行环境与实验设备匹配。

背景与挑战

背景概述

taptap_review数据集创建于2022年，由国内研究团队基于TapTap平台的手游用户评论构建，旨在分析2022年手游市场的用户满意度。该数据集由PP飞桨公开数据集提供，包含约300款游戏的4888条评论数据，每条数据包含评论文本和情感标签。情感标签基于用户评分，低于3星的评论标记为不满意（0），其余标记为满意（1）。该数据集为情感分析领域提供了重要的中文语料资源，尤其在手游市场用户满意度研究方面具有显著影响力，推动了基于机器学习与深度学习的情感分析方法在中文文本中的应用。

当前挑战

taptap_review数据集在解决手游用户满意度分析问题时面临多重挑战。首先，用户评论的多样性与语言表达的复杂性使得情感分类任务难度增加，尤其是中文文本中的情感极性判断容易受到语境和情感词强度的影响。其次，数据集中满意与不满意类别的平衡性虽较好，但仍需应对数据稀疏性和噪声问题。在构建过程中，数据爬取与清洗的复杂性、情感标签的准确性验证，以及中文情感词典的适配性均为主要挑战。此外，深度学习模型的训练对计算资源要求较高，尤其是在BERT等预训练模型的微调过程中，硬件兼容性与模型优化成为关键问题。

常用场景

经典使用场景

在手游市场研究领域，taptap_review数据集被广泛应用于情感分析任务。通过对TapTap平台上用户评论的情感极性进行分类，研究者能够深入理解玩家对手游的满意度。该数据集常用于训练和评估情感分析模型，如支持向量机、朴素贝叶斯、Bi-LSTM等，以自动识别用户评论中的情感倾向。

解决学术问题

taptap_review数据集解决了手游市场研究中情感分析的难题。通过提供大量标注好的用户评论数据，研究者能够开发出高效的情感分类模型，从而准确评估玩家对手游的满意度。这不仅为手游开发者提供了宝贵的市场反馈，还为学术界提供了丰富的研究素材，推动了情感分析技术的发展。

实际应用

在实际应用中，taptap_review数据集为手游开发者提供了重要的市场洞察。通过分析用户评论的情感倾向，开发者可以及时调整游戏设计，优化用户体验，提升用户留存率。此外，该数据集还可用于市场调研，帮助开发者了解竞争对手的用户反馈，制定更有针对性的市场策略。

数据集最近研究

最新研究方向

在移动游戏市场快速发展的背景下，taptap_review数据集为研究手游用户满意度提供了宝贵的数据资源。近年来，研究者们利用该数据集，结合深度学习与迁移学习技术，探索了情感分析的新方法。特别是基于BERT模型的微调方法，显著提升了情感分类的准确率。此外，结合注意力机制的LSTM模型也在捕捉用户评论中的关键情感信息方面表现出色。这些研究不仅推动了情感分析技术的发展，也为游戏开发者提供了改进用户体验的科学依据，具有重要的应用价值。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

CHIRPS v2.0

CHIRPS v2.0是一个全球降水数据集，提供高分辨率的降水估计，结合了卫星观测和气象站数据。数据集覆盖全球，时间范围从1981年至今，空间分辨率为0.05度。

www.chc.ucsb.edu 收录

Fruits-360

一个高质量的水果图像数据集，包含多种水果的图像，如苹果、香蕉、樱桃等，总计42345张图片，分为训练集和验证集，共有64个水果类别。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录