2021 Tokyo Olympics Multilingual News Article Dataset

Name: 2021 Tokyo Olympics Multilingual News Article Dataset
Creator: Jožef Stefan Institute
Published: 2025-02-11 00:38:03
License: 暂无描述

arXiv2025-02-11 更新2025-02-12 收录

下载链接：

https://clarin.si/repository/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由Jožef Stefan Institute创建的，包含10,940篇关于2021年东京奥运会的多语言新闻文章，这些文章来自1,918个不同的出版商，涵盖了2021年奥运会1,350个子事件，并发表于2021年7月1日至8月14日之间。文章使用九种不同语言家族的语言撰写，并且包含在不同的脚本中。该数据集的创建旨在为评估多语言新闻聚类算法的性能提供资源，并可用于分析2021年东京奥运会的事件动态等。

This dataset was created by the Jožef Stefan Institute. It contains 10,940 multilingual news articles about the 2021 Tokyo Olympic Games, sourced from 1,918 distinct publishers, covering 1,350 sub-events of the Games, and published between July 1st and August 14th, 2021. The articles are written in languages spanning nine different language families and use various writing scripts. This dataset was developed to offer a valuable resource for evaluating the performance of multilingual news clustering algorithms, and can be further utilized to analyze event dynamics surrounding the 2021 Tokyo Olympic Games and other relevant research tasks.

提供机构：

Jožef Stefan Institute

创建时间：

2025-02-11

搜集汇总

数据集介绍

构建方式

该数据集的构建过程始于从Event Registry系统中收集相关新闻文章，系统从1918个不同的发布商那里收集了覆盖2021年奥运会1350个子事件的10940篇新闻文章。这些文章以九种不同语言和不同脚本写成。为了创建数据集，首先通过一个收集和分析新闻文章的服务检索原始新闻文章。然后，使用在线聚类算法对文章进行分组，每个组包含报道相同子事件的新闻文章。最后，对分组进行手动标注和评估。该数据集的开发旨在为评估多语言新闻聚类算法的性能提供资源，同时也可用于从不同角度分析2021年东京奥运会的动态和事件。

使用方法

要使用OG2021数据集，用户首先需要从CLARIN.SI存储库下载数据集。由于数据集以CSV格式存储，因此可以使用各种程序和编程库打开。数据集可用于评估（在线）多语言新闻聚类算法，这是创建数据集的主要原因。算法将处理和将新闻文章分组到事件集群中。创建的事件集群然后与数据集的集群ID进行比较，以衡量算法的性能。性能指标将显示算法在数据集中呈现的高频事件环境中的表现。数据集还可用于分析2021年东京奥运会的动态和事件，包括基于新闻发布商和所用语言的报道的文化差异和观点。此外，它还允许分析2021年奥运会的时间线，了解组织者和参赛者面临的挑战以及引入的解决方案。

背景与挑战

背景概述

2021东京奥运会多语言新闻文章数据集的创建旨在为评估多语言新闻聚类算法的性能提供一个资源。该数据集收集了来自1,918个不同出版商的10,940篇新闻文章，涵盖了2021年奥运会的1,350个子事件，并发布于2021年7月1日至8月14日之间。这些文章用九种不同的语言撰写，涵盖了不同的语言家族和不同的脚本。为了创建这个数据集，原始新闻文章首先通过一个收集和分析新闻文章的服务被检索，然后使用在线聚类算法进行分组，每个组包含报道同一子事件的新闻文章。最后，这些组被手动注释和评估。这个数据集的开发旨在为评估多语言新闻聚类算法的性能提供一个资源，因为目前可用于此目的的数据集非常有限。它还可以用于从不同的角度分析2021年东京奥运会的动态和事件。数据集以CSV格式提供，可以从CLARIN.SI存储库访问。

当前挑战

数据集相关的挑战包括：1) 在多语言环境中对新闻文章进行有效分组，以识别相同事件的报道；2) 在构建过程中，需要克服不同语言和文化背景下的新闻文章的多样性和复杂性，以及从大量文章中提取关键事件信息的挑战。此外，数据集的创建还需要解决如何处理和注释来自不同语言和文化背景的文章的问题，以确保数据集的准确性和可靠性。

常用场景

经典使用场景

2021东京奥运会多语言新闻文章数据集（OG2021）的主要使用场景在于评估多语言新闻聚类算法的性能。该数据集包含了来自1,918个不同出版商的10,940篇新闻文章，涵盖了2021年奥运会的1,350个子事件，并涵盖了九种不同语言和不同脚本。该数据集可用于评估多语言新闻聚类算法在处理高频率事件时的性能，这是现有数据集所缺乏的。此外，该数据集也可用于从不同角度分析2021年东京奥运会的动态和事件，包括文化和语言差异、组织者和竞争者面临的挑战等。

解决学术问题

该数据集解决了多语言新闻文章聚类算法的评估问题。现有的多语言新闻数据集很少，且多数为单语种，不适合用于多语言任务的评估。OG2021数据集为评估多语言新闻聚类算法提供了宝贵的资源，填补了现有数据集的空白。此外，该数据集也可用于研究新闻事件跟踪、新闻分类等新闻相关任务。

实际应用

OG2021数据集的实际应用场景包括新闻事件跟踪、新闻分类、新闻摘要等。例如，通过该数据集可以分析不同国家和地区的媒体对2021年东京奥运会的报道差异，以及不同语言和文化背景下对事件的解读和关注点。此外，该数据集也可用于开发新闻推荐系统、新闻搜索引擎等实用工具。

数据集最近研究