Twitter Event Detection Dataset

github2024-04-18 更新2024-05-31 收录

下载链接：

https://github.com/sameraamar/collect-twitter-dataset-building-a-large-scale-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

用于评估Twitter上事件检测的大规模语料库，包含约12100万个推文ID和506个话题，以及相关的分类和描述信息。

A large-scale corpus for evaluating event detection on Twitter, comprising approximately 121 million tweet IDs and 506 topics, along with associated classification and descriptive information.

创建时间：

2016-08-24

原始信息汇总

数据集概述

数据集名称

Twitter Event Detection Dataset

数据集来源

作者: Andrew McMinn
联系方式: a.mcminn.1@research.gla.ac.uk
下载地址: http://mir.dcs.gla.ac.uk/resources/

数据集结构

all_ids.tsv: 包含约121 million条推文ID，格式为 <user id> <tweet id>。
event_descriptions.tsv: 包含506个主题，格式为 <topic_id> "<topic title>"。
event_categories.tsv: 主题与一个或多个类别的映射，格式为 <topic_id> <category1>,<category2>，类别包括艺术、文化与娱乐、灾难与事故、法律等。
relevant_tweets.tsv: 包含151k条推文ID，映射到505个主题，格式为 <topic_id> <tweet_id>，一条推文可以属于多个主题。

数据集内容

主题描述: 506个主题，详细信息存储在 event_descriptions.tsv 中。
相关推文: 152,952行数据，其中101,240条推文成功下载，22,232条推文下载失败。

数据处理

数据加载: 将数据集加载到MongoDB中。
数据收集: 运行Python脚本收集推文详情并更新MongoDB。

技术要求

Python包: tweepy, pymongo

使用限制

未经正式许可，不得发布Twitter数据集。
Twitter数据不得存储超过24小时。

搜集汇总

数据集介绍

构建方式

Twitter Event Detection Dataset的构建基于大规模的推文收集与分类过程。该数据集通过Python代码自动抓取推文，并将其存储在MongoDB数据库中。具体而言，数据集包含了约1.21亿条推文的ID列表，这些推文被映射到506个不同的事件主题上。每个主题进一步被分类到多个类别中，如艺术、文化与娱乐、灾难与事故、法律等。通过这种方式，数据集不仅涵盖了广泛的事件类型，还确保了推文与事件之间的多对多关系。

特点

Twitter Event Detection Dataset的一个显著特点是其庞大的规模和多样性。数据集包含了超过1.21亿条推文的ID，并将其分类为506个不同的事件主题，每个主题又进一步细分为多个类别。此外，数据集中的推文具有多重归属性，即一条推文可能与多个事件主题相关联。这种设计使得该数据集在事件检测和分类任务中具有极高的应用价值。

使用方法

使用Twitter Event Detection Dataset时，首先需要将数据集加载到MongoDB中，然后通过Python的tweepy和pymongo包进行推文详细信息的抓取和更新。数据集的结构清晰，包含多个以制表符分隔的文本文件，如all_ids.tsv、event_descriptions.tsv、event_categories.tsv和relevant_tweets.tsv。用户可以根据这些文件进行事件检测、分类和分析。需要注意的是，使用该数据集时必须遵守Twitter的使用政策，不得未经许可发布或长期存储数据。

背景与挑战

背景概述

Twitter Event Detection Dataset，由Andrew McMinn及其团队于2013年创建，旨在通过大规模语料库评估Twitter上的事件检测。该数据集的核心研究问题是如何从海量推文中有效识别和分类事件，这对于社交媒体分析、危机管理和信息传播研究具有重要意义。通过收集约1.21亿条推文ID，并将其映射到506个不同的事件主题，该数据集为事件检测算法提供了丰富的实验基础，推动了社交媒体数据挖掘领域的发展。

当前挑战

Twitter Event Detection Dataset在构建过程中面临多项挑战。首先，如何从海量推文中筛选出与特定事件相关的推文，确保数据的相关性和准确性，是一个技术难题。其次，推文的动态性和时效性要求数据集的实时更新，而推文的隐私和版权问题也限制了数据的长期存储和公开使用。此外，推文的多义性和噪声数据增加了事件分类的复杂性，如何设计高效的算法以应对这些挑战，是该数据集面临的主要问题。

常用场景

经典使用场景

Twitter Event Detection Dataset 主要用于社交媒体事件检测的研究领域，尤其是针对Twitter平台上的大规模事件识别与分类。该数据集通过收集和标注大量推文，为研究者提供了一个丰富的语料库，用于训练和评估事件检测算法。经典的使用场景包括：利用机器学习模型对推文进行分类，识别特定事件的发生时间、地点和类型，以及分析事件在社交媒体上的传播路径和影响力。

衍生相关工作

基于Twitter Event Detection Dataset，研究者们开发了多种事件检测和分类算法，推动了社交媒体分析领域的技术进步。例如，有研究提出了基于深度学习的事件检测模型，显著提升了事件识别的准确率；还有研究利用该数据集进行跨平台事件分析，探讨不同社交媒体平台上的事件传播差异。这些衍生工作不仅丰富了事件检测的理论体系，还为实际应用提供了更多技术支持。

数据集最近研究