Hysterical Literature Data

github2023-12-14 更新2024-05-31 收录

下载链接：

https://github.com/oan-J/Data-Mining

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了从Douyin平台抓取的关于Hysterical Literature(发疯文学)的数据，包括用户名、用户位置、评论文本、评论点赞等，用于分析和分类Hysterical Literature文本。

This dataset comprises data scraped from the Douyin platform pertaining to Hysterical Literature, encompassing user names, user locations, comment texts, and comment likes, intended for the analysis and classification of Hysterical Literature texts.

创建时间：

2023-11-29

原始信息汇总

数据集概述

本数据集项目名为“Data-Mining”，专注于挖掘“Hysterical Literature”（发疯文学）的数据。项目内容包括数据抓取、文本分类、关联规则挖掘、API集成及模型微调等多个方面。

数据集内容

数据抓取：从抖音平台抓取与“Hysterical Literature”相关的数据，包括用户名、用户位置、评论文本、评论点赞数等。
卷积神经网络分类器：构建CNN分类器，用于区分“Hysterical Literature”文本与其他类型文本。
关联规则挖掘：应用关联规则挖掘技术，揭示“Hysterical Literature”文本中的模式和关系。
ChatGLM3 API集成：调用ChatGLM3 API对“Hysterical Literature”文本进行分类，包括场景识别、情感分类、情感评分及发疯程度评分。
ChatGLM3微调：使用第四项任务生成的提示进行ChatGLM3模型的全面微调，以生成准确且上下文相关的“Hysterical Literature”文本。

数据集应用

Web爬虫：通过修改crawler.py中的视频ID，运行脚本抓取评论数据，并存储为CSV文件。
生成词云：运行wordcloud.py，基于抓取的数据生成词云图片。
情感分析：运行emotion_analysis.py，分析文本情感。
CNN分类器：在opinion_analysis/demo.py中替换CSV数据，运行脚本进行文本分类。
关联规则挖掘：运行fpgrowth.py，使用FP-Growth算法挖掘频繁项集。
ChatGLM3 API调用：运行chatglm3-api&finetune/demo_crazy.py，使用API对文本进行分类。
ChatGLM3全面微调：准备数据，运行相关脚本进行模型微调，以提高生成文本的准确性和稳定性。

数据集结果

微调结果：展示了微调前后ChatGLM3模型生成“Hysterical Literature”文本的效果对比，包括简单提示和分类提示的微调结果。
泛化能力：展示了微调后的ChatGLM3模型将普通文本转换为“Hysterical Literature”版本的能力。

数据集依赖

软件要求：需安装Python及相关库，如wordcloud、jieba、jiagu、keras、numpy等。
文件要求：需下载并放置chromedriver.exe、cn_stopwords.txt、font.ttf等文件。
ChatGLM3部署：需确保ChatGLM3成功部署，并参考相关文档进行操作。

数据集贡献

本项目为团队合作成果，上传部分代表个人贡献。未来将上传更多团队成员贡献的内容，包括使用K-means聚类、层次聚类、多元线性回归分析以及ARIMA方法预测“Hysterical Literature”的未来流行趋势。

搜集汇总

数据集介绍

构建方式

Hysterical Literature Data 数据集的构建过程主要依赖于从抖音平台抓取与“发疯文学”相关的数据，包括用户名、用户位置、评论内容及点赞数等。随后，通过卷积神经网络（CNN）分类器对文本进行有效区分，并应用关联规则挖掘技术揭示文本中的模式和关系。此外，数据集还集成了ChatGLM3 API，用于对“发疯文学”文本进行场景识别、情感分类、情感评分及发疯程度评分。最后，通过对ChatGLM3模型进行全量微调，生成了符合特定上下文的“发疯文学”文本。

特点

该数据集的特点在于其多样化的文本来源和丰富的标注信息。数据集不仅包含了从抖音平台抓取的大量用户评论，还通过ChatGLM3 API对文本进行了多维度的标注，如场景、情感分类、情感评分及发疯程度评分。这些标注信息为研究者提供了深入分析“发疯文学”文本的多种视角。此外，数据集还通过卷积神经网络和关联规则挖掘技术，进一步增强了文本的分类和模式识别能力。

使用方法

使用Hysterical Literature Data 数据集时，用户首先需要通过提供的爬虫脚本从抖音平台抓取相关评论数据，并将其存储为CSV文件。随后，用户可以利用数据集中的CNN分类器对文本进行分类，或通过关联规则挖掘技术分析文本中的模式。此外，用户还可以调用ChatGLM3 API对文本进行场景识别、情感分类等操作。最后，用户可以通过微调ChatGLM3模型，生成符合特定上下文的“发疯文学”文本。数据集的使用流程清晰，适合用于文本分类、情感分析及生成模型的研究。

背景与挑战

背景概述

Hysterical Literature Data 数据集聚焦于近年来在社交媒体平台上兴起的‘发疯文学’现象。该数据集由一群数据科学家和自然语言处理研究人员于2023年创建，旨在通过数据挖掘和机器学习技术，深入分析‘发疯文学’的文本特征、情感表达及其在社交媒体中的传播模式。研究团队通过从抖音平台抓取相关数据，结合卷积神经网络（CNN）分类器、关联规则挖掘以及ChatGLM3模型的微调，探索了‘发疯文学’的生成机制及其情感强度。该数据集为研究网络语言现象、情感分析以及生成式语言模型的应用提供了重要的数据支持，推动了相关领域的研究进展。

当前挑战

Hysterical Literature Data 数据集在构建和应用过程中面临多重挑战。首先，‘发疯文学’作为一种非正式的网络语言现象，其文本结构松散、情感表达夸张，难以通过传统的自然语言处理技术进行有效分类和分析。其次，数据抓取过程中，抖音平台的动态性和数据隐私限制增加了数据获取的难度。此外，ChatGLM3模型的微调虽然提升了文本生成的准确性，但仍存在生成结果不稳定、随机性较强的问题，尤其是在情感分类和场景识别方面。这些挑战不仅影响了数据集的构建效率，也对后续的研究和应用提出了更高的技术要求。

常用场景

经典使用场景

在社交媒体分析领域，Hysterical Literature Data 数据集被广泛应用于识别和分析用户生成内容中的情感表达模式。通过卷积神经网络分类器和关联规则挖掘技术，研究者能够有效区分发疯文学与其他文本类型，并揭示其中的潜在模式和关系。这一数据集的使用不仅限于文本分类，还扩展到情感分析和场景识别，为理解网络文化中的情感表达提供了重要工具。

解决学术问题

Hysterical Literature Data 数据集解决了社交媒体文本分析中的多个学术问题。通过ChatGLM3模型的微调，研究者能够准确生成特定场景和情感分类的发疯文学文本，从而深入探讨网络文化中的情感表达机制。此外，该数据集还支持情感评分和发疯程度评分，为情感计算和文本生成领域提供了新的研究方向。

衍生相关工作

Hysterical Literature Data 数据集衍生了一系列相关研究，包括基于ChatGLM3的文本生成模型优化、情感分类算法的改进以及社交媒体文本挖掘技术的创新。这些研究不仅推动了自然语言处理技术的发展，还为网络文化研究提供了新的视角和方法。例如，基于该数据集的K-means聚类和层次聚类分析，揭示了发疯文学与地域变量之间的关系，进一步拓展了社交媒体数据分析的应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集