five

TweetsKB

收藏
arXiv2018-10-23 更新2024-06-21 收录
下载链接:
http://l3s.de/tweetsKB/
下载链接
链接失效反馈
官方服务:
资源简介:
TweetsKB是由汉诺威大学L3S研究中心创建的一个公开大规模RDF语料库,包含超过15亿条推文,覆盖了近5年的时间跨度。该数据集通过公共Twitter流API持续收集推文,并进行了过滤和处理,去除了重复和非英语内容,同时进行了实体链接和情感分析。TweetsKB不仅提供了推文的元数据信息,还包括提取的实体、标签、用户提及和情感信息,使用标准的RDF/S词汇表。该数据集的应用领域广泛,包括实体中心的信息探索、数据集成和知识发现,旨在解决社交媒体数据分析中的多种问题。

TweetsKB is a public large-scale RDF corpus created by the L3S Research Center of Leibniz University Hannover, containing over 1.5 billion tweets spanning nearly five years. This dataset continuously collects tweets via the public Twitter Streaming API, followed by filtering and processing to remove duplicates and non-English content, as well as entity linking and sentiment analysis. TweetsKB not only provides metadata information of tweets, but also includes extracted entities, hashtags, user mentions and sentiment information, using standard RDF/S vocabularies. It covers a wide range of application fields, including entity-centric information exploration, data integration and knowledge discovery, aiming to solve various problems in social media data analysis.
提供机构:
汉诺威大学L3S研究中心
创建时间:
2018-10-23
搜集汇总
数据集介绍
main_image_url
构建方式
在社交网络数据日益成为人文与社会研究重要资源的背景下,TweetsKB应运而生。该数据集通过持续调用Twitter公开流式API自2013年1月起采集推文,经过去除转发、非英语推文及基于多项式朴素贝叶斯分类器的垃圾过滤后,最终保留约15.6亿条推文。随后,利用Yahoo的FEL工具进行实体链接,将推文中的实体映射至Wikipedia/DBpedia,并借助SentiStrength工具提取正负情感强度值。最后,依据SIOC、schema.org等成熟词汇表,将元数据、实体、话题标签、用户提及及情感信息转化为RDF三元组,以N3格式按月分文件存储于Zenodo平台。
特点
TweetsKB以其庞大规模与多维注释信息脱颖而出,涵盖超过15.6亿条推文、约1.4亿独立用户及1.4百万个不同实体,三元组总量逾480亿。数据时间跨度近五年(2013年1月至2017年11月),支持细粒度的时间感知分析。其独到之处在于整合了实体链接(精度达86%)与情感分析(在TSentiment15数据集上F1达0.80),并采用标准化RDF/S模型,便于与DBpedia等外部知识库直接关联。此外,数据集仅提供匿名化推文ID与元数据,在保护隐私的同时允许用户通过ID追溯原始内容。
使用方法
TweetsKB可通过多种方式灵活使用。用户可直接从Zenodo下载N3文件,或通过公开SPARQL端点(含约5%数据子集)进行查询。借助SPARQL的联邦查询能力,可实时整合DBpedia信息,例如检索提及德国政客且负面情感强烈的热门推文。数据集支持实体流行度、情感倾向、争议性等时间序列分析,适用于事件检测、主题演化及实体推荐等任务。源代码已开源,允许第三方基于相同流程构建定制化语料库。数据采用CC BY 4.0许可,确保学术与商业场景下的合法重用。
背景与挑战
背景概述
社交媒体数据已成为数字人文、计算社会学及数据科学等领域不可或缺的研究资源,其中Twitter因其即时性与广泛性而备受瞩目。然而,大规模推文数据的获取、归档与标注过程成本高昂,且缺乏公开可用的结构化存档,尤其阻碍了非技术领域的研究者。为此,德国汉诺威大学L3S研究中心的Pavlos Fafalios、Vasileios Iosifidis、Eirini Ntoutsi及Stefan Dietze于2018年创建了TweetsKB数据集。该语料库收录了2013年1月至2017年11月间超过15亿条英文推文,并采用RDF/S标准词汇表对实体、情感、标签及用户提及等元数据进行结构化表达。TweetsKB的发布填补了大规模、可查询的社交网络语义存档的空白,为实体中心的信息探索、跨知识库数据融合及时间序列分析提供了基础性支撑,在事件检测、概念漂移及实体推荐等前沿议题中展现出广泛影响力。
当前挑战
TweetsKB面临的挑战主要体现在两个维度。其一,在领域问题层面,推文文本受限于140字符,导致实体链接与情感分析面临噪声高、上下文稀疏的困境;现有工具如FEL虽精度达86%,但召回率仅39%,难以识别嵌套于标签或昵称中的实体,而情感分类器在多元标签(正/负/中性)场景下准确率仅57%,影响了下游分析的可靠性。其二,在构建过程中,数据集需应对海量数据的实时处理压力:从持续爬取超过60亿推文起始,需经过去重、语言过滤及垃圾识别(利用MNB分类器剔除约10%的垃圾推文),再对剩余15.6亿条推文执行实体链接与情感分析,最终生成逾480亿条RDF三元组。此外,隐私保护要求匿名化用户名并隐去原文,仅保留推文ID供检索,这在一定程度上限制了内容深度的复用,而长期维护则依赖持续爬取与周期性更新,对计算基础设施与存储资源提出了严苛要求。
常用场景
经典使用场景
在社交计算与语义网领域,TweetsKB常被用于大规模推文数据的实体中心化探索与多维度分析。研究者利用其超过15亿条推文的RDF结构化表示,结合时间戳、实体提及、情感得分及互动统计等元信息,开展跨知识库的联邦查询。例如,通过SPARQL端点可检索特定时间段内提及某类实体(如德国政治家)且伴随强烈负面情感的流行推文,或挖掘与热点实体(如难民)共现的高频标签,从而揭示社交媒体中实体与话题的时空关联模式。
解决学术问题
TweetsKB解决了长期以来缺乏公开、大规模、语义标注完善的社交媒体存档的学术困境。它使研究者无需承担高昂的数据采集与预处理成本,即可直接获取经过实体链接(FEL工具,精确度达86%)与情感分析(SentiStrength,在二分类任务中F1达0.80)的推文语料。该数据集推动了时间感知的实体流行度预测、概念漂移检测、多维度实体演化分析(如争议性与情感极性时序建模)等研究,并为数据挖掘社区提供了可复现比较的基准资源,弥补了传统UCI仓库缺乏动态复杂数据的不足。
衍生相关工作
基于TweetsKB衍生出一系列经典工作,包括多维度实体中心化分析框架(Fafalios等人提出流行度、情感性、争议性等度量指标),以及时间与社交感知的实体推荐系统(利用共现实体在特定时段的相关性增强推荐先验概率)。此外,该数据集支撑了动态实体流行度预测、流式情感分类与概念漂移检测等研究,并作为跨学科项目(如ALEXANDRIA与AFEL)的核心数据资产,促进了语义层构建、标签推荐算法(如认知启发的标签复用模型)及基于维基百科时间信息的微博语义标注等方向的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作