five

EventKG+Click

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/saraabdollahi/eventkg-click
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个跨语言的资料集,它体现了事件与其关系的语言特定相关性,为基于事件中心的跨语言用户交互训练和评估模型提供了一个参考资源。此外,该数据集还包含了源自维基百科点击流的使用者互动数据。其任务是基于用户互动痕迹进行事件推荐。

This cross-language dataset captures the language-specific correlations between events and their associated relationships, serving as a reference resource for training and evaluating event-centric cross-lingual user interaction models. Furthermore, the dataset contains user interaction data derived from Wikipedia clickstreams. The core task supported by this dataset is event recommendation based on user interaction traces.
提供机构:
Open Event Knowledge Graph
搜集汇总
数据集介绍
main_image_url
构建方式
EventKG+Click数据集的构建融合了两种权威数据源:一是事件中心的EventKG知识图谱,该图谱涵盖了超过120万事件及其多语言关系;二是维基百科点击流数据,记录了2019年12月期间英语、德语和俄语维基百科中用户对事件和实体的真实交互轨迹。通过将点击流中的事件与实体映射至EventKG,并筛选出在三种语言中均出现且目标页面为事件的点击对(每语言至少10次点击),最终整合得到包含超过4000个事件和近10000个事件中心点击对的跨语言数据集,同时计算了反映语言特定相关性的评分。
特点
该数据集的核心特色在于其跨语言视角与事件中心性。它首次将维基百科点击流中的用户行为痕迹与语义丰富的知识图谱相结合,从而量化事件及其关系在不同语言社区中的语言特定相关性。通过提出语言特定事件相关性和关系相关性评分,数据集能够揭示不同语言用户对同一事件的不同关注焦点(如德语用户更关注柏林卡车袭击事件),并排除了整体点击量差异带来的偏差。此外,数据集还包含了事件位置邻近性、社区提及次数和事件时效性等影响因子,为深入分析语言差异提供了多维视角。
使用方法
EventKG+Click数据集适用于训练和评估跨语言事件中心的用户交互模型,例如事件检索或推荐系统。研究者可利用其中提供的语言特定相关性评分作为监督信号,开发能够跨越语言障碍辅助用户探索事件的方法。具体使用时,可基于事件相关性和关系相关性分数对事件或实体-事件关系进行排序,并引入事件位置邻近性等影响因子作为特征进行模型优化。数据集以公开的CSV格式存储,便于加载和分析,支持针对英语、德语和俄语的比较研究,也可扩展至其他语言社区的分析场景。
背景与挑战
背景概述
EventKG+Click数据集由德国莱布尼茨汉诺威大学的Sara Abdollahi、Simon Gottschalk和Elena Demidova于2020年创建,旨在解决跨语言事件中心信息分析中用户交互模型训练与评估数据匮乏的核心问题。该数据集融合了事件中心知识图谱EventKG与维基百科点击流数据,涵盖英语、德语和俄语三种语言,包含超过四千个事件及近一万个事件中心点击对。通过计算语言特定的事件及关系相关性分数,EventKG+Click为研究跨语言用户行为、语言视角差异以及事件中心信息检索提供了重要基准,推动了数字人文、媒体研究与新闻学等领域的跨语言分析发展。
当前挑战
EventKG+Click面临多重挑战。首先,在领域问题层面,跨语言事件中心信息分析面临语言障碍导致的用户交互模型缺失,现有基准数据集难以支持多语言环境下事件相关性与用户行为模式的评估,尤其是如何准确量化语言特定的事件和关系相关性。其次,在构建过程中,需要处理维基百科点击流中语言版本间的规模不均衡(如英语点击量是德语的7倍),通过归一化与平衡点击计数消除流行度偏差;同时需确保事件与实体在知识图谱中的精确映射,仅保留跨语言共有且点击量超过阈值的实体,并整合多维影响因素(如事件位置接近性、语言社区相关性、事件新旧程度)以验证相关性分数的有效性。
常用场景
经典使用场景
EventKG+Click数据集的核心经典使用场景在于为跨语言事件中心用户交互模型的训练与评估提供基准数据。该数据集巧妙融合了EventKG知识图谱中结构化的多语言事件语义信息与Wikipedia点击流所反映的真实用户行为轨迹,尤其聚焦于英语、德语和俄语三种语言社区。研究者可借此场景,探索用户在不同语言环境下对事件及其关系的关注差异,例如通过语言特异性事件相关性评分,识别出如“2016年柏林卡车袭击”在德语社区中的高关注度,从而为跨语言信息检索、事件推荐及用户导航行为分析奠定数据基础。
解决学术问题
该数据集有效解决了跨语言事件分析中缺乏真实用户交互轨迹标注数据的学术难题。在数字人文、媒体研究与新闻学等领域,研究者长期受困于语言障碍,难以量化不同语言社区对全球性事件的认知偏差。EventKG+Click通过提出语言特异性事件相关性与关系相关性评分,揭示了事件地理位置接近性对用户点击行为的显著正向影响,而传统链接计数或事件时效性则未呈现强关联。这一发现为理解跨文化报道差异、集体偏见形成机制提供了量化工具,推动了事件中心知识图谱在用户交互研究中的方法论创新。
衍生相关工作
EventKG+Click的提出衍生了多项经典工作,其中最具代表性的是EventKG+TL,该工作利用知识图谱中的跨语言链接计数构建时间线,而EventKG+Click则进一步引入真实用户点击流,弥补了纯语义数据缺乏行为验证的不足。此外,基于该数据集的评分机制,研究者可开发动态实体相关性排序模型,如Tran等人曾利用英语Wikipedia点击流作为实体查询的基准,而EventKG+Click的多语言版本拓展了这一范式,支持对跨语言实体推荐的评估。未来,该数据集有望催生新一代基于知识图谱增强的跨语言用户交互模型,如事件检索与个性化导航系统。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作