five

微博与抖音评论数据集|社交媒体分析数据集|情感分析数据集

收藏
github2023-11-08 更新2024-05-31 收录
社交媒体分析
情感分析
下载链接:
https://github.com/xiajun2001/BERT-SA
下载链接
链接失效反馈
资源简介:
数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。

The dataset is derived from comment information on the Weibo and Douyin platforms, collected by crawling comments and other related data based on two trending events. The original dataset comprised 35,000 entries, with negative and neutral comments significantly outnumbering positive ones. After special processing, the dataset now includes 2,601 positive comments, 2,367 negative comments, and 2,725 neutral comments, totaling 7,693 entries.
创建时间:
2023-11-02
原始信息汇总

数据集概述

数据集来源

  • 数据集源自微博平台与抖音平台的评论信息。
  • 基于两个热点事件来对评论等信息进行爬取收集形成数据集。

数据集内容

  • 原数据一共35,000条。
  • 经过特殊处理后,数据集包含:
    • 积极数据:2,601条
    • 消极数据:2,367条
    • 中立数据:2,725条
    • 总计:7,693条
  • 实际用到的数据可能小于7,693条,因数据预处理会剔除无效信息。

数据集存储位置

  • 数据集位于data/aclImdb目录下。

数据集使用

  • 数据预处理通过process_mydata.py脚本进行,该脚本从Excel文件中抽取数据并进行数据清洗,同时划分训练集与测试集。
  • 主函数为Bert_mydata.py
  • 模型测试通过test_bert_mydata.py脚本进行。

模型与参数

  • 使用的预训练模型为distilbert-base-multilingual-cased-sentiments-student
  • 参数设置:
    • BATCHSIZE = 8
    • epoch = 4
    • TRAINSET_SIZE = 7,000
    • TESTSET_SIZE = 2,000
    • 学习率(lr)调整以优化模型性能。

模型性能

  • 不同学习率下的模型准确率(accuracy)如下:
    lr accuracy
    1e-3 83.8%
    3e-4 84.6%
    3e-5 88.3%
AI搜集汇总
数据集介绍
main_image_url
构建方式
微博与抖音评论数据集的构建基于两个热点事件,通过爬取微博和抖音平台的评论信息,经过筛选和处理后形成。原始数据集包含35,000条评论,但为了平衡积极、消极和中立评论的比例,经过特殊处理后,数据集包含2,601条积极评论、2,367条消极评论和2,725条中立评论,总计7,693条。数据预处理阶段进一步剔除了无效信息,如仅含特殊字符或空格的评论,确保数据质量。
特点
该数据集的主要特点在于其评论来源的多样性和情感分布的平衡性。数据集涵盖了微博和抖音两大社交平台的用户评论,反映了不同平台的用户情感表达特征。经过处理后,积极、消极和中立评论的比例接近,有助于模型在情感分析任务中获得更均衡的训练效果。此外,数据集的预处理步骤确保了数据的清洁度,减少了噪声对模型训练的影响。
使用方法
使用该数据集进行情感分析时,首先需进行数据预处理,包括从Excel文件中抽取数据、清洗数据并划分训练集与测试集。随后,可利用预训练模型distilbert-base-multilingual-cased-sentiments-student进行迁移学习,结合Pytorch框架实现情感分类。通过调整学习率、批量大小和训练轮数等参数,可以优化模型的准确率。代码实现参考了fnangle/text_classfication-with-bert-pytorch仓库,并借助了Hugging Face的transformers库。
背景与挑战
背景概述
微博与抖音评论数据集是由研究人员基于微博和抖音平台上的评论信息构建的,旨在通过情感分析技术对中文舆情进行深入研究。该数据集的创建时间未明确提及,但其核心研究问题集中在情感分类上,特别是针对微博和抖音上的热点事件评论进行情感倾向的识别。数据集包含了约7693条评论,经过特殊处理后,积极、消极和中立评论的数量相对均衡。该数据集的构建不仅为情感分析领域提供了宝贵的资源,也为社交媒体舆情监控和分析提供了新的研究视角。
当前挑战
微博与抖音评论数据集在构建过程中面临了多重挑战。首先,数据集的原始数据中,消极和中立评论的数量远超积极评论,这导致了数据不平衡的问题,需要通过特殊处理来平衡各类评论的数量。其次,数据预处理阶段需要剔除无效信息,如仅含特殊字符或空格的评论,这增加了数据清洗的复杂性。此外,情感分析任务本身具有挑战性,尤其是在处理中文社交媒体的非正式表达和多样化的情感表达时,模型的准确性和鲁棒性面临考验。
常用场景
经典使用场景
微博与抖音评论数据集主要用于情感分析任务,尤其是在中文社交媒体舆情分析领域。通过该数据集,研究者可以训练和验证情感分类模型,以识别微博和抖音平台上用户评论的情感倾向,如积极、消极或中立。这种分析有助于理解公众对特定事件或话题的态度和情绪反应,为舆情监控和决策提供数据支持。
解决学术问题
该数据集解决了中文社交媒体情感分析中的数据稀缺问题,尤其是在积极评论相对较少的情况下,通过数据平衡处理,使得模型能够更全面地学习不同情感类别。此外,它还为研究者提供了一个标准化的数据集,用于评估和比较不同情感分析模型的性能,推动了中文自然语言处理技术的发展。
衍生相关工作
基于该数据集,研究者已开展了多项相关工作,包括改进情感分类算法、探索多模态情感分析(结合文本与图像)、以及跨平台情感分析等。这些工作不仅提升了情感分析的准确性,还为社交媒体数据挖掘提供了新的研究方向,推动了中文社交媒体分析领域的技术进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

Houston2013, Berlin, Augsburg

本研究发布了三个多模态遥感基准数据集:Houston2013(高光谱和多光谱数据)、Berlin(高光谱和合成孔径雷达数据)和Augsburg(高光谱、合成孔径雷达和数字表面模型数据)。这些数据集用于土地覆盖分类,旨在通过共享和特定特征学习模型(S2FL)评估多模态基线。数据集包含不同模态和分辨率的图像,适用于评估和开发新的遥感图像处理技术。

arXiv 收录