微博与抖音评论数据集

github2023-11-08 更新2024-05-31 收录

下载链接：

https://github.com/xiajun2001/BERT-SA

下载链接

链接失效反馈

官方服务：

资源简介：

数据集源自微博平台与抖音平台的评论信息，基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条，但消极评论与中立评论远远大于积极评论。因此作特殊处理后，积极数据2601条，消极数据2367条，中立数据2725条，共7693条数据。

The dataset is derived from comment information on the Weibo and Douyin platforms, collected by crawling comments and other related data based on two trending events. The original dataset comprised 35,000 entries, with negative and neutral comments significantly outnumbering positive ones. After special processing, the dataset now includes 2,601 positive comments, 2,367 negative comments, and 2,725 neutral comments, totaling 7,693 entries.

创建时间：

2023-11-02

原始信息汇总

数据集概述

数据集来源

数据集源自微博平台与抖音平台的评论信息。
基于两个热点事件来对评论等信息进行爬取收集形成数据集。

数据集内容

原数据一共35,000条。
经过特殊处理后，数据集包含：
- 积极数据：2,601条
- 消极数据：2,367条
- 中立数据：2,725条
- 总计：7,693条
实际用到的数据可能小于7,693条，因数据预处理会剔除无效信息。

数据集存储位置

数据集位于data/aclImdb目录下。

数据集使用

数据预处理通过process_mydata.py脚本进行，该脚本从Excel文件中抽取数据并进行数据清洗，同时划分训练集与测试集。
主函数为Bert_mydata.py。
模型测试通过test_bert_mydata.py脚本进行。

模型与参数

使用的预训练模型为distilbert-base-multilingual-cased-sentiments-student。
参数设置：
- BATCHSIZE = 8
- epoch = 4
- TRAINSET_SIZE = 7,000
- TESTSET_SIZE = 2,000
- 学习率（lr）调整以优化模型性能。

模型性能

不同学习率下的模型准确率（accuracy）如下：

lr accuracy

1e-3 83.8%

3e-4 84.6%

3e-5 88.3%

搜集汇总

数据集介绍

构建方式

微博与抖音评论数据集的构建基于两个热点事件，通过爬取微博和抖音平台的评论信息，经过筛选和处理后形成。原始数据集包含35,000条评论，但为了平衡积极、消极和中立评论的比例，经过特殊处理后，数据集包含2,601条积极评论、2,367条消极评论和2,725条中立评论，总计7,693条。数据预处理阶段进一步剔除了无效信息，如仅含特殊字符或空格的评论，确保数据质量。

特点

该数据集的主要特点在于其评论来源的多样性和情感分布的平衡性。数据集涵盖了微博和抖音两大社交平台的用户评论，反映了不同平台的用户情感表达特征。经过处理后，积极、消极和中立评论的比例接近，有助于模型在情感分析任务中获得更均衡的训练效果。此外，数据集的预处理步骤确保了数据的清洁度，减少了噪声对模型训练的影响。

使用方法

使用该数据集进行情感分析时，首先需进行数据预处理，包括从Excel文件中抽取数据、清洗数据并划分训练集与测试集。随后，可利用预训练模型distilbert-base-multilingual-cased-sentiments-student进行迁移学习，结合Pytorch框架实现情感分类。通过调整学习率、批量大小和训练轮数等参数，可以优化模型的准确率。代码实现参考了fnangle/text_classfication-with-bert-pytorch仓库，并借助了Hugging Face的transformers库。

背景与挑战

背景概述

微博与抖音评论数据集是由研究人员基于微博和抖音平台上的评论信息构建的，旨在通过情感分析技术对中文舆情进行深入研究。该数据集的创建时间未明确提及，但其核心研究问题集中在情感分类上，特别是针对微博和抖音上的热点事件评论进行情感倾向的识别。数据集包含了约7693条评论，经过特殊处理后，积极、消极和中立评论的数量相对均衡。该数据集的构建不仅为情感分析领域提供了宝贵的资源，也为社交媒体舆情监控和分析提供了新的研究视角。

当前挑战

微博与抖音评论数据集在构建过程中面临了多重挑战。首先，数据集的原始数据中，消极和中立评论的数量远超积极评论，这导致了数据不平衡的问题，需要通过特殊处理来平衡各类评论的数量。其次，数据预处理阶段需要剔除无效信息，如仅含特殊字符或空格的评论，这增加了数据清洗的复杂性。此外，情感分析任务本身具有挑战性，尤其是在处理中文社交媒体的非正式表达和多样化的情感表达时，模型的准确性和鲁棒性面临考验。

常用场景

经典使用场景

微博与抖音评论数据集主要用于情感分析任务，尤其是在中文社交媒体舆情分析领域。通过该数据集，研究者可以训练和验证情感分类模型，以识别微博和抖音平台上用户评论的情感倾向，如积极、消极或中立。这种分析有助于理解公众对特定事件或话题的态度和情绪反应，为舆情监控和决策提供数据支持。

解决学术问题

该数据集解决了中文社交媒体情感分析中的数据稀缺问题，尤其是在积极评论相对较少的情况下，通过数据平衡处理，使得模型能够更全面地学习不同情感类别。此外，它还为研究者提供了一个标准化的数据集，用于评估和比较不同情感分析模型的性能，推动了中文自然语言处理技术的发展。

衍生相关工作

基于该数据集，研究者已开展了多项相关工作，包括改进情感分类算法、探索多模态情感分析（结合文本与图像）、以及跨平台情感分析等。这些工作不仅提升了情感分析的准确性，还为社交媒体数据挖掘提供了新的研究方向，推动了中文社交媒体分析领域的技术进步。

以上内容由遇见数据集搜集并总结生成

lr	accuracy
1e-3	83.8%
3e-4	84.6%
3e-5	88.3%