five

抖音评论数据集|社交媒体分析数据集|情感分析数据集

收藏
arXiv2020-12-16 更新2024-06-21 收录
社交媒体分析
情感分析
下载链接:
https://github.com/h2222/douyin_comment_dataset
下载链接
链接失效反馈
资源简介:
抖音评论数据集是由阿德莱德大学计算机科学学院的郝家祥收集的,主要用于构建特定领域的词汇表。该数据集包含了从抖音应用中爬取的用户评论,用于情感分析任务。数据集的创建过程中,使用了超密集空间嵌入表,通过中文抖音评论和情感词汇源(种子词)的词嵌入进行训练。此数据集主要应用于中文情感分类,旨在通过模型分类中文词汇的情感倾向,解决中文情感分析中的特定问题。
提供机构:
阿德莱德大学计算机科学学院
创建时间:
2020-12-16
AI搜集汇总
数据集介绍
main_image_url
构建方式
本数据集构建基于抖音评论,旨在分析中文情感倾向,特别是句子层面的情感分析。该数据集的构建方法首先通过爬虫技术从抖音应用中收集用户评论数据,并使用Pandas进行数据预处理,然后利用Gensim工具训练原始词嵌入表。为了获得情感倾向,研究者从积极和消极情感中选取了5、10、15个种子词,将它们与评论数据进行训练,以生成情感倾向词典。最后,通过对比PCA方法,评估模型在中文情感分类任务中的性能。
使用方法
使用抖音评论数据集进行情感分析时,首先需要收集用户评论数据,并进行预处理。然后,利用Gensim工具训练原始词嵌入表,并根据种子词进行情感倾向词典的生成。最后,通过对比PCA方法,评估模型在中文情感分类任务中的性能。在使用过程中,可以根据实际需求调整种子词的数量,以及优化模型的训练参数,以提高情感分析的准确性和效率。
背景与挑战
背景概述
在自然语言处理领域,情感分析是研究文本情感倾向的重要分支。传统研究多集中于英语文本的情感分析,例如基于句子中的Valence、Arousal和Dominance来分析情感倾向。然而,不同语言之间情感倾向的表达存在差异,例如中文和英语的句子顺序可能呈现不同的情感。为了解决这一问题,Jiaxiang Hao在阿德莱德大学的计算机科学学院进行了一项研究,旨在构建一个基于抖音评论数据集的领域特定词典,通过情感倾向对中文词汇进行分类。该研究基于超密集空间嵌入表,通过中文抖音评论的情感词典源(种子词)进行训练,最终得到一个领域特定词典,展示词汇的情感倾向。研究结果表明,该模型在中文情感分类中表现出色。
当前挑战
抖音评论数据集在情感分析领域面临的主要挑战包括:1) 所解决的领域问题:如何有效地对中文文本进行情感分类,尤其是处理中文特有的语言结构和表达方式。2) 构建过程中所遇到的挑战:数据收集难度大,抖音平台为了保护用户隐私设计了复杂的加密算法,导致数据收集工作耗时且难以获取大量数据。此外,中文数据集中情感词汇的分布不均,正面情感词汇的频率和数量高于负面情感词汇,这可能导致模型在分类时对正面词汇的优化效果更好,而对负面词汇的分类能力较弱。
常用场景
经典使用场景
抖音评论数据集在自然语言处理领域,特别是在情感分析任务中,被广泛用于构建领域特定的情感词典。通过对抖音评论数据的分析,研究者们可以训练出一个情感词典,用以捕捉中文词语的情感倾向。该数据集通过词嵌入技术,将抖音评论数据转换为高密度的情感嵌入表,从而实现对中文词语情感倾向的分类。此外,该数据集还用于评估模型在不同种子词数量下的情感分类能力,以及特定视频对评论者情感倾向的引导作用。
解决学术问题
抖音评论数据集解决了在情感分析任务中,中文数据集相对较少的问题。通过收集抖音评论数据,研究者们可以训练出一个情感词典,用以捕捉中文词语的情感倾向。此外,该数据集还用于评估模型在不同种子词数量下的情感分类能力,以及特定视频对评论者情感倾向的引导作用。这些研究有助于提高情感分析模型的性能,并为情感词典的构建提供了新的思路。
实际应用
抖音评论数据集在实际应用中,可以用于情感分析、用户画像构建、内容推荐等方面。通过对抖音评论数据的分析,可以了解用户对视频内容的情感倾向,从而为内容推荐提供依据。此外,情感词典的构建还可以用于用户画像构建,从而更好地理解用户的需求和偏好。这些应用有助于提高抖音平台的用户体验,并为内容创作者提供更有针对性的内容创作建议。
数据集最近研究
最新研究方向
抖音评论数据集的研究主要聚焦于基于该数据集构建特定领域的情感词典,从而实现中文情感倾向的预测与分析。该研究方法通过将中文抖音评论和情感词典的词嵌入进行超密集子空间嵌入表的训练,最终生成一个能够反映词语情感倾向的领域特定词典。通过比较训练结果与PCA方法,研究发现该模型在中文情感分类任务中表现出色。该研究的意义在于,即使数据量不足,模型仍能保持良好的性能,并且不需要对数据进行标注,从而可以利用大量未标注数据进行训练。此外,超密集子空间嵌入表在情感分类任务中的表现优于传统的PCA方法,因为它能够更好地学习情感信息,提高词语情感表示的质量。
相关研究论文
  • 1
    Building domain specific lexicon based on TikTok comment dataset阿德莱德大学计算机科学学院 · 2020年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录