five

HEC-Dataset

收藏
github2021-03-24 更新2024-05-31 收录
下载链接:
https://github.com/polyusmart/HEC-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个大型数据集,用于理解在线话题的细粒度社交情感,包含标签、情感和评论。数据集包含两个文件:hashtag&emotion.txt记录标签及其情感投票,hashtag&comment.txt记录与标签相关的用户评论。

This is a large-scale dataset designed for understanding the fine-grained social emotions of online topics, encompassing labels, emotions, and comments. The dataset comprises two files: 'hashtag&emotion.txt' records the hashtags along with their emotional votes, and 'hashtag&comment.txt' documents user comments associated with the hashtags.
创建时间:
2020-10-02
原始信息汇总

HEC-Dataset 概述

数据集描述

  • 名称: HEC-Dataset
  • 来源: 论文《Hashtags, Emotions, and Comments: A Large-Scale Dataset to Understand Fine-Grained Social Emotions to Online Topics》

数据集文件

  • 文件1: hashtag&emotion.txt

    • 内容: 包含标签及其情感投票
    • 结构: 每行包含六个字段:<Hashtag ID>, <Hashtag Text>, <Total # of Voters>, <Rank 1 Emotion>, <Rank 2 Emotion>, <Rank 3 Emotion>,字段间以Tab分隔。前三位情感以表情符号([]内)和投票数(以冒号分隔)表示。
  • 文件2: hashtag&comment.txt

    • 内容: 包含参与由标签发起讨论的用户评论
    • 结构: 每行包含三个字段:<Comment ID>, <Hashtag ID>, <Comment Text>,字段间以Tab分隔。

数据集特性

  • 语言: 中文
  • 编码: UTF-8
  • 排序: 按字母顺序排序
  • 授权: 遵循Creative Commons Attribution 3.0 Unported License
搜集汇总
数据集介绍
main_image_url
构建方式
HEC-Dataset的构建基于社交媒体平台上的话题标签(Hashtag)及其相关用户评论。数据集通过收集用户在特定话题下的情感投票和评论内容,形成了两个主要文件:hashtag&emotion.txt和hashtag&comment.txt。前者记录了每个话题标签及其对应的情感投票结果,后者则包含了用户针对这些话题标签的评论内容。数据通过Tab分隔符进行结构化存储,确保了数据的可读性和可操作性。
特点
HEC-Dataset的显著特点在于其细粒度的情感分析能力。数据集不仅捕捉了用户对话题标签的总体情感倾向,还通过投票机制揭示了用户对特定情感的偏好排序。此外,数据集中的评论内容为研究者提供了丰富的文本数据,可用于深入分析用户情感表达的多样性和复杂性。所有数据均为中文,并以UTF-8编码,确保了数据的广泛适用性和兼容性。
使用方法
使用HEC-Dataset时,研究者可通过hashtag&emotion.txt文件分析话题标签的情感分布,识别出最受欢迎的情感类型及其排序。hashtag&comment.txt文件则可用于文本挖掘和情感分析,帮助理解用户在特定话题下的情感表达模式。数据集以Tab分隔的文本格式存储,便于使用常见的数据处理工具(如Python的Pandas库)进行加载和分析。数据集遵循Creative Commons Attribution 3.0 Unported License,允许广泛的学术和非商业用途。
背景与挑战
背景概述
HEC-Dataset是由研究人员在2020年创建的一个大规模数据集,旨在深入理解社交媒体中用户对在线话题的细粒度情感表达。该数据集由Hashtag、情感投票和用户评论三部分构成,涵盖了中文社交媒体平台上的广泛话题。通过分析Hashtag与情感之间的关联,以及用户评论中的情感表达,该数据集为情感计算、自然语言处理和社会心理学等领域提供了重要的研究基础。其核心研究问题在于如何从海量的社交媒体数据中提取出用户对特定话题的情感倾向,并揭示情感与话题之间的复杂关系。该数据集的发布为相关领域的研究者提供了一个高质量的资源,推动了情感分析和社交媒体研究的进一步发展。
当前挑战
HEC-Dataset在构建和应用过程中面临多重挑战。首先,情感分类的细粒度要求极高,需要准确捕捉用户对特定话题的微妙情感变化,这对情感标签的定义和标注提出了较高要求。其次,社交媒体数据的多样性和噪声问题显著,用户评论中可能存在大量的非正式表达、缩写和网络用语,增加了数据清洗和预处理的难度。此外,数据集的构建依赖于大规模的用户参与,如何确保数据的代表性和平衡性也是一个重要挑战。最后,由于数据集主要针对中文社交媒体,语言的特异性(如多义词、情感表达的多样性)也为情感分析模型的训练和评估带来了额外的复杂性。
常用场景
经典使用场景
HEC-Dataset广泛应用于社交媒体情感分析领域,特别是在研究用户对特定话题的细粒度情感反应方面。通过分析用户对特定话题的情感投票和评论,研究者能够深入理解社交媒体平台上用户的情感动态和情感传播机制。
解决学术问题
该数据集解决了社交媒体情感分析中的关键问题,即如何从大规模用户生成内容中提取和量化情感信息。通过提供详细的情感投票和评论数据,HEC-Dataset为研究者提供了丰富的资源,用于开发更精确的情感分析模型,并推动情感计算领域的发展。
衍生相关工作
基于HEC-Dataset,研究者们开发了多种情感分析算法和模型,如基于深度学习的细粒度情感分类器。这些工作不仅提升了情感分析的准确性,还为社交媒体平台提供了更智能的情感监测工具,推动了情感计算技术的实际应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作