five

benchmark-events-tweets-dataset

收藏
github2021-01-31 更新2024-05-31 收录
下载链接:
https://github.com/pavan046/benchmark-events-tweets-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个手动访问的Twitter数据集,包含2012年美国总统选举和飓风桑迪两个事件的推文数据。数据集中的文件以CSV格式存储,每个文件包含推文ID和相关性标记。

This is a manually curated Twitter dataset encompassing tweet data from two significant events: the 2012 U.S. Presidential Election and Hurricane Sandy. The files within the dataset are stored in CSV format, with each file containing tweet IDs and relevance labels.
创建时间:
2013-01-02
原始信息汇总

数据集概述

数据集名称

Manually Assessed Twitter Dataset for Events

包含事件

  • 美国2012年总统选举
  • 飓风桑迪

文件详情

  • uselections.csv:包含10084条关于美国2012年总统选举的推文。
  • hurricansandy.csv:包含4085条关于飓风桑迪的推文。

推文总数

  • 相关推文总数约为12000条,代表50个标签(每个事件25个标签)。
  • 包含重复的推文总数约为15000条。

文件格式

  • CSV格式
  • 每条记录包含<tweetid><relevance>字段。
  • <relevance>字段值为y(相关)或n(不相关)。

标签列表

  • 美国2012年总统选举

    • #benghazi, #bethe5percent, #ctvottatnoon, #defeatobama, #earlyvoting, #education, #election, #gallup, #gop, #gop2012, #harvard, #johnson2012, #makeyourvotecount, #obama, #obama2012, #ohio, #p2, #romney, #romneyryan2012, #sandy, #tcot, #teamsearle, #teaparty, #tlot, #vote
  • 飓风桑迪

    • #atheist, #blackout, #cnn, #eastcoast, #fdny, #frankenstorm, #hurricane, #hurricanesandy, #latenight, #manhattan, #msm, #newyork, #noaudience, #ny, #nyc, #ohmygod, #romneystormtips, #singlegirlproblems, #staysafe, #storm, #superstorm, #toronto, #usa, #wvu
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集围绕两个重大事件构建,分别是2012年美国总统大选和飓风桑迪。通过手动筛选与这两个事件相关的推文,数据集涵盖了约12000条推文,其中包含50个特定主题标签(每个事件25个标签)。推文通过Twitter Search API或修改后的Twitter Corpus工具获取,确保了数据的来源可靠性和多样性。每条推文以CSV格式存储,包含推文ID和相关性标记('y'表示相关,'n'表示不相关)。
特点
该数据集的特点在于其高度聚焦于特定事件,且通过手动评估确保了数据的相关性。推文涵盖了广泛的主题标签,反映了事件的多维度讨论。数据集的结构简洁明了,每条推文仅包含推文ID和相关性标记,便于研究人员快速筛选和分析。此外,推文的来源多样,涵盖了不同用户和视角,为事件分析提供了丰富的语料支持。
使用方法
使用该数据集时,研究人员可以通过推文ID利用Twitter Search API重新获取推文内容,或借助Twitter Corpus工具进行批量处理。数据集中的相关性标记为研究提供了明确的分类依据,便于进行事件相关的文本挖掘、情感分析或传播模式研究。此外,数据集的主题标签为特定事件的研究提供了关键词索引,有助于深入分析事件的社会影响和舆论动态。
背景与挑战
背景概述
benchmark-events-tweets-dataset数据集由研究人员于2012年创建,旨在为社交媒体事件分析提供高质量的标注数据。该数据集聚焦于两个重大事件:2012年美国总统大选和飓风桑迪。通过手动标注的方式,研究人员从Twitter平台上收集了约12000条推文,涵盖了50个相关话题标签。这一数据集为社交媒体事件检测、情感分析和信息传播研究提供了重要的实验基础,推动了自然语言处理和信息检索领域的发展。
当前挑战
该数据集在构建过程中面临多重挑战。首先,社交媒体数据的动态性和噪声特性使得推文的相关性标注变得复杂,需要大量人工干预以确保数据质量。其次,由于Twitter API的限制,原始推文的获取和存储存在技术难题,研究人员需依赖第三方工具进行数据提取。此外,事件相关推文的时效性和多样性也对数据集的代表性提出了更高要求,如何平衡数据的广度和深度成为关键问题。这些挑战不仅影响了数据集的构建效率,也为后续研究提供了改进方向。
常用场景
经典使用场景
benchmark-events-tweets-dataset数据集广泛应用于社交媒体分析领域,特别是在研究重大事件如美国总统选举和自然灾害期间的公众反应。该数据集通过提供与2012年美国总统选举和飓风桑迪相关的推文,为研究人员提供了一个宝贵的资源,用于分析社交媒体在事件传播和公众情绪表达中的作用。
实际应用
在实际应用中,benchmark-events-tweets-dataset被用于政府和企业的危机管理策略制定。例如,通过分析飓风桑迪期间的推文,应急管理部门能够更有效地监控灾情和公众需求,从而优化资源分配和响应策略。此外,该数据集还被用于政治竞选团队分析公众对候选人的态度和反应。
衍生相关工作
基于benchmark-events-tweets-dataset,多项研究已经展开,特别是在自然语言处理和机器学习领域。这些研究包括开发更高效的事件检测算法、情感分析模型以及社交媒体影响力评估工具。这些衍生工作不仅扩展了数据集的应用范围,还推动了相关技术的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作