2021年东京奥运会多语言新闻文章数据集

Name: 2021年东京奥运会多语言新闻文章数据集
Creator: 斯洛文尼亚 Jožef Stefan 研究所人工智能系
Published: 2025-02-14 04:46:57
License: 暂无描述

arXiv2025-02-14 更新2025-02-27 收录

下载链接：

https://www.clarin.si/info/about/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由斯洛文尼亚Jožef Stefan研究所人工智能系创建，包含10940篇新闻文章，涵盖了2021年奥运会的1350个子事件，涵盖九种语言。数据集旨在评估多语言新闻聚类算法的性能，也可用于分析2021年东京奥运会的动态和事件。

This dataset was created by the Department of Artificial Intelligence at Jožef Stefan Institute in Slovenia. It comprises 10,940 news articles covering 1,350 sub-events related to the 2021 Tokyo Olympic Games, and is available in nine languages. This dataset aims to evaluate the performance of multilingual news clustering algorithms, and can also be utilized to analyze the dynamics and events associated with the 2021 Tokyo Olympic Games.

提供机构：

斯洛文尼亚 Jožef Stefan 研究所人工智能系

创建时间：

2025-02-11

搜集汇总

数据集介绍

构建方式

该数据集的构建过程始于对新闻文章的收集，通过定义语言、发布时间和上下文概念等标准，从Event Registry系统收集了与2021年东京奥运会相关的新闻文章。收集到的原始新闻文章首先通过自动新闻聚类算法进行分组，每个组包含报道同一子事件的新闻文章。然后，对每个组进行手动标注和评估，以确保报道同一事件的新闻文章具有相同的标注。最终，经过格式化和准备，数据集以CSV格式发布，可供分析和使用。

特点

2021年东京奥运会多语言新闻文章数据集的特点在于其多语言性和高频率事件设置。数据集中包含了来自不同语言家族和不同文字的九种语言的新闻文章，这些文章报道了2021年奥运会的1350个子事件。此外，数据集的构建旨在评估多语言新闻聚类算法的性能，并可用于分析2021年东京奥运会的动态和事件，包括文化和语言差异以及组织者和参赛者面临的挑战。

使用方法

使用2021年东京奥运会多语言新闻文章数据集的方法包括下载数据集、评估多语言新闻聚类算法和分析奥运会动态。首先，用户需要从CLARIN.SI存储库下载数据集。然后，用户可以使用各种程序和编程库打开CSV格式的数据集。对于评估多语言新闻聚类算法，用户可以使用数据集中的新闻文章进行训练和测试，并使用标准评估指标来衡量算法的性能。对于分析奥运会动态，用户可以研究数据集中的新闻文章，以了解不同文化和语言视角下的报道差异，以及组织者和参赛者面临的挑战和解决方案。

背景与挑战

背景概述

新闻文章作为了解全球事件的重要途径，不同出版商从各自的角度报道相同事件，反映了报道的多样性和全球影响力。为了分析这些方面，我们需要有效的方法来根据事件对多语言新闻文章进行分组。然而，目前可用的多语言新闻数据集非常有限，这限制了相关研究和模型的发展。本文介绍了一个名为OG2021的数据集，该数据集包含了2021年东京奥运会的多语言新闻文章。该数据集收集了来自1,918家不同出版商的10,940篇新闻文章，涵盖了2021年奥运会的1,350个子事件，并发布于2021年7月1日至8月14日之间。这些文章以九种不同的语言撰写，来自不同的语言家族和不同的脚本。为了创建这个数据集，首先通过一个收集和分析新闻文章的服务检索原始新闻文章，然后使用在线聚类算法将文章分组，每个组包含报道相同子事件的新闻。最后，手动注释和评估这些组。该数据集旨在为评估多语言新闻聚类算法的性能提供一个资源，同时也用于从不同角度分析2021年东京奥运会的动态和事件。

当前挑战

该数据集的构建面临了几个挑战。首先，现有的多语言新闻数据集很少，这限制了发展针对相同事件的文章分组方法和模型。其次，现有的数据集大多包含主要英语文章，不适合多语言任务。最后，为了提高数据集的质量，需要手动注释和评估，这是一个耗时且劳动密集型的过程。OG2021数据集的创建旨在解决这些挑战，通过提供一个针对高频率事件的在线多语言新闻聚类算法的评估资源，同时分析2021年东京奥运会的动态和事件。

常用场景

经典使用场景

在多语言新闻文章的聚类算法评估中，2021年东京奥运会多语言新闻文章数据集（OG2021）扮演着关键角色。该数据集包含了来自1,918个不同出版商的10,940篇新闻文章，涵盖了2021年奥运会的1,350个子事件，这些文章使用九种不同语言撰写，跨越了不同的语言家族和脚本。OG2021数据集的创建旨在填补现有数据集中多语言新闻聚类算法评估资源的空白，为算法的性能评估提供了一个丰富的测试平台。

衍生相关工作

OG2021数据集的创建也催生了相关的研究工作。例如，研究者可以利用该数据集来开发和评估跨语言新闻相似度和事件追踪方法，以实现不同语言之间的新闻内容理解和事件识别。此外，数据集还可以用于研究新闻文章的多语言自动摘要和翻译，以提高新闻内容的传播和可读性。此外，OG2021数据集还可以作为其他大型事件多语言新闻数据集的参考和模板，推动多语言新闻数据处理和分析技术的发展。

数据集最近研究