five

抖音评论数据集|社交媒体分析数据集|情感分析数据集

收藏
arXiv2020-12-16 更新2024-06-21 收录
社交媒体分析
情感分析
下载链接:
https://github.com/h2222/douyin_comment_dataset
下载链接
链接失效反馈
资源简介:
抖音评论数据集是由阿德莱德大学计算机科学学院的郝家祥收集的,主要用于构建特定领域的词汇表。该数据集包含了从抖音应用中爬取的用户评论,用于情感分析任务。数据集的创建过程中,使用了超密集空间嵌入表,通过中文抖音评论和情感词汇源(种子词)的词嵌入进行训练。此数据集主要应用于中文情感分类,旨在通过模型分类中文词汇的情感倾向,解决中文情感分析中的特定问题。
提供机构:
阿德莱德大学计算机科学学院
创建时间:
2020-12-16
AI搜集汇总
数据集介绍
main_image_url
构建方式
本数据集构建基于抖音评论,旨在分析中文情感倾向,特别是句子层面的情感分析。该数据集的构建方法首先通过爬虫技术从抖音应用中收集用户评论数据,并使用Pandas进行数据预处理,然后利用Gensim工具训练原始词嵌入表。为了获得情感倾向,研究者从积极和消极情感中选取了5、10、15个种子词,将它们与评论数据进行训练,以生成情感倾向词典。最后,通过对比PCA方法,评估模型在中文情感分类任务中的性能。
使用方法
使用抖音评论数据集进行情感分析时,首先需要收集用户评论数据,并进行预处理。然后,利用Gensim工具训练原始词嵌入表,并根据种子词进行情感倾向词典的生成。最后,通过对比PCA方法,评估模型在中文情感分类任务中的性能。在使用过程中,可以根据实际需求调整种子词的数量,以及优化模型的训练参数,以提高情感分析的准确性和效率。
背景与挑战
背景概述
在自然语言处理领域,情感分析是研究文本情感倾向的重要分支。传统研究多集中于英语文本的情感分析,例如基于句子中的Valence、Arousal和Dominance来分析情感倾向。然而,不同语言之间情感倾向的表达存在差异,例如中文和英语的句子顺序可能呈现不同的情感。为了解决这一问题,Jiaxiang Hao在阿德莱德大学的计算机科学学院进行了一项研究,旨在构建一个基于抖音评论数据集的领域特定词典,通过情感倾向对中文词汇进行分类。该研究基于超密集空间嵌入表,通过中文抖音评论的情感词典源(种子词)进行训练,最终得到一个领域特定词典,展示词汇的情感倾向。研究结果表明,该模型在中文情感分类中表现出色。
当前挑战
抖音评论数据集在情感分析领域面临的主要挑战包括:1) 所解决的领域问题:如何有效地对中文文本进行情感分类,尤其是处理中文特有的语言结构和表达方式。2) 构建过程中所遇到的挑战:数据收集难度大,抖音平台为了保护用户隐私设计了复杂的加密算法,导致数据收集工作耗时且难以获取大量数据。此外,中文数据集中情感词汇的分布不均,正面情感词汇的频率和数量高于负面情感词汇,这可能导致模型在分类时对正面词汇的优化效果更好,而对负面词汇的分类能力较弱。
常用场景
经典使用场景
抖音评论数据集在自然语言处理领域,特别是在情感分析任务中,被广泛用于构建领域特定的情感词典。通过对抖音评论数据的分析,研究者们可以训练出一个情感词典,用以捕捉中文词语的情感倾向。该数据集通过词嵌入技术,将抖音评论数据转换为高密度的情感嵌入表,从而实现对中文词语情感倾向的分类。此外,该数据集还用于评估模型在不同种子词数量下的情感分类能力,以及特定视频对评论者情感倾向的引导作用。
解决学术问题
抖音评论数据集解决了在情感分析任务中,中文数据集相对较少的问题。通过收集抖音评论数据,研究者们可以训练出一个情感词典,用以捕捉中文词语的情感倾向。此外,该数据集还用于评估模型在不同种子词数量下的情感分类能力,以及特定视频对评论者情感倾向的引导作用。这些研究有助于提高情感分析模型的性能,并为情感词典的构建提供了新的思路。
实际应用
抖音评论数据集在实际应用中,可以用于情感分析、用户画像构建、内容推荐等方面。通过对抖音评论数据的分析,可以了解用户对视频内容的情感倾向,从而为内容推荐提供依据。此外,情感词典的构建还可以用于用户画像构建,从而更好地理解用户的需求和偏好。这些应用有助于提高抖音平台的用户体验,并为内容创作者提供更有针对性的内容创作建议。
数据集最近研究
最新研究方向
抖音评论数据集的研究主要聚焦于基于该数据集构建特定领域的情感词典,从而实现中文情感倾向的预测与分析。该研究方法通过将中文抖音评论和情感词典的词嵌入进行超密集子空间嵌入表的训练,最终生成一个能够反映词语情感倾向的领域特定词典。通过比较训练结果与PCA方法,研究发现该模型在中文情感分类任务中表现出色。该研究的意义在于,即使数据量不足,模型仍能保持良好的性能,并且不需要对数据进行标注,从而可以利用大量未标注数据进行训练。此外,超密集子空间嵌入表在情感分类任务中的表现优于传统的PCA方法,因为它能够更好地学习情感信息,提高词语情感表示的质量。
相关研究论文
  • 1
    Building domain specific lexicon based on TikTok comment dataset阿德莱德大学计算机科学学院 · 2020年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

VQA

我们提出了自由形式和开放式视觉问答 (VQA) 的任务。给定图像和关于图像的自然语言问题,任务是提供准确的自然语言答案。反映许多现实世界的场景,例如帮助视障人士,问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域,包括背景细节和底层上下文。因此,与生成通用图像说明的系统相比,在 VQA 上取得成功的系统通常需要对图像和复杂推理有更详细的理解。此外,VQA 适合自动评估,因为许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供。我们提供了一个数据集包含 100,000 的图像和问题并讨论它提供的信息。提供了许多 VQA 基线,并与人类表现进行了比较。

OpenDataLab 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录

UCI Wine

UCI Wine数据集包含了178个样本,每个样本有13个特征,用于分类任务。这些特征包括葡萄酒的化学成分,如酒精含量、苹果酸、灰分等。数据集的目标是将葡萄酒分类为三个不同的品种。

archive.ics.uci.edu 收录