five

2021 Tokyo Olympics Multilingual News Article Dataset|东京奥运会数据集|自然语言处理数据集

收藏
arXiv2025-02-11 更新2025-02-12 收录
东京奥运会
自然语言处理
下载链接:
https://clarin.si/repository/
下载链接
链接失效反馈
资源简介:
该数据集是由Jožef Stefan Institute创建的,包含10,940篇关于2021年东京奥运会的多语言新闻文章,这些文章来自1,918个不同的出版商,涵盖了2021年奥运会1,350个子事件,并发表于2021年7月1日至8月14日之间。文章使用九种不同语言家族的语言撰写,并且包含在不同的脚本中。该数据集的创建旨在为评估多语言新闻聚类算法的性能提供资源,并可用于分析2021年东京奥运会的事件动态等。
提供机构:
Jožef Stefan Institute
创建时间:
2025-02-11
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建过程始于从Event Registry系统中收集相关新闻文章,系统从1918个不同的发布商那里收集了覆盖2021年奥运会1350个子事件的10940篇新闻文章。这些文章以九种不同语言和不同脚本写成。为了创建数据集,首先通过一个收集和分析新闻文章的服务检索原始新闻文章。然后,使用在线聚类算法对文章进行分组,每个组包含报道相同子事件的新闻文章。最后,对分组进行手动标注和评估。该数据集的开发旨在为评估多语言新闻聚类算法的性能提供资源,同时也可用于从不同角度分析2021年东京奥运会的动态和事件。
使用方法
要使用OG2021数据集,用户首先需要从CLARIN.SI存储库下载数据集。由于数据集以CSV格式存储,因此可以使用各种程序和编程库打开。数据集可用于评估(在线)多语言新闻聚类算法,这是创建数据集的主要原因。算法将处理和将新闻文章分组到事件集群中。创建的事件集群然后与数据集的集群ID进行比较,以衡量算法的性能。性能指标将显示算法在数据集中呈现的高频事件环境中的表现。数据集还可用于分析2021年东京奥运会的动态和事件,包括基于新闻发布商和所用语言的报道的文化差异和观点。此外,它还允许分析2021年奥运会的时间线,了解组织者和参赛者面临的挑战以及引入的解决方案。
背景与挑战
背景概述
2021东京奥运会多语言新闻文章数据集的创建旨在为评估多语言新闻聚类算法的性能提供一个资源。该数据集收集了来自1,918个不同出版商的10,940篇新闻文章,涵盖了2021年奥运会的1,350个子事件,并发布于2021年7月1日至8月14日之间。这些文章用九种不同的语言撰写,涵盖了不同的语言家族和不同的脚本。为了创建这个数据集,原始新闻文章首先通过一个收集和分析新闻文章的服务被检索,然后使用在线聚类算法进行分组,每个组包含报道同一子事件的新闻文章。最后,这些组被手动注释和评估。这个数据集的开发旨在为评估多语言新闻聚类算法的性能提供一个资源,因为目前可用于此目的的数据集非常有限。它还可以用于从不同的角度分析2021年东京奥运会的动态和事件。数据集以CSV格式提供,可以从CLARIN.SI存储库访问。
当前挑战
数据集相关的挑战包括:1) 在多语言环境中对新闻文章进行有效分组,以识别相同事件的报道;2) 在构建过程中,需要克服不同语言和文化背景下的新闻文章的多样性和复杂性,以及从大量文章中提取关键事件信息的挑战。此外,数据集的创建还需要解决如何处理和注释来自不同语言和文化背景的文章的问题,以确保数据集的准确性和可靠性。
常用场景
经典使用场景
2021东京奥运会多语言新闻文章数据集(OG2021)的主要使用场景在于评估多语言新闻聚类算法的性能。该数据集包含了来自1,918个不同出版商的10,940篇新闻文章,涵盖了2021年奥运会的1,350个子事件,并涵盖了九种不同语言和不同脚本。该数据集可用于评估多语言新闻聚类算法在处理高频率事件时的性能,这是现有数据集所缺乏的。此外,该数据集也可用于从不同角度分析2021年东京奥运会的动态和事件,包括文化和语言差异、组织者和竞争者面临的挑战等。
解决学术问题
该数据集解决了多语言新闻文章聚类算法的评估问题。现有的多语言新闻数据集很少,且多数为单语种,不适合用于多语言任务的评估。OG2021数据集为评估多语言新闻聚类算法提供了宝贵的资源,填补了现有数据集的空白。此外,该数据集也可用于研究新闻事件跟踪、新闻分类等新闻相关任务。
实际应用
OG2021数据集的实际应用场景包括新闻事件跟踪、新闻分类、新闻摘要等。例如,通过该数据集可以分析不同国家和地区的媒体对2021年东京奥运会的报道差异,以及不同语言和文化背景下对事件的解读和关注点。此外,该数据集也可用于开发新闻推荐系统、新闻搜索引擎等实用工具。
数据集最近研究
最新研究方向
随着新闻媒体在全球范围内的广泛传播,多语言新闻文章的聚类和分析成为自然语言处理领域的前沿研究方向。2021年东京奥运会多语言新闻文章数据集(2021 Tokyo Olympics Multilingual News Article Dataset)的创建,为这一领域的研究提供了宝贵的资源。该数据集收集了来自1,918个不同出版商的10,940篇新闻文章,涵盖了2021年奥运会的1,350个子事件,并以九种不同语言和不同脚本撰写。这些文章的收集和聚类过程采用了先进的在线聚类算法,并通过手动标注和评估进行了验证。该数据集不仅用于评估多语言新闻聚类算法的性能,也为从不同视角分析2021年东京奥运会的动态和事件提供了可能。
相关研究论文
  • 1
    The 2021 Tokyo Olympics Multilingual News Article Dataset Jožef Stefan Institute · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

insurance.csv

该数据集包含医疗保险费用的相关信息,用于分析患者的各种属性及其对保险费用的影响。

github 收录

中国地质调查局: 全国1∶200 000区域水文地质图空间数据库

全国1∶200 000区域水文地质图空间数据库以建国后在全国范围内(本次未在香港特别行政区、澳门特别行政区和台湾省开展工作) 30个省开展的1∶200 000区域水文地质普查工作所取得的区域水文地质普查报告、综合水文地质图等地质资料为数据源,在制定的“1∶200 000区域水文地质图空间数据库图层及属性文件格式标准”的基础上,建成了一个全国性的、大型的区域水文地质学空间数据库。该数据库总共采集、处理了全国范围内1∶200 000图幅的<number>1 017</number>幅全要素综合水文地质图信息,全部数据量约50 GB。数据库涵盖了以1∶200 000国际标准图幅为管理单位的水文地质要素空间数据图层,内容包括:地理要素(交通层、水系层、行政区划层等),基础地质要素(地层分区层、断裂构造层),水文地质要素(地下水类型层、地下水富水性层、地下水迳流模数层,地下水水质层、水文地质特征层、地下水利用规划层),专题要素(综合水文地质柱状图,水文地质剖面图) 四大类近30个要素图层。空间数据库主要采用MapGIS地理信息系统格式存储,形成了目前国内覆盖范围最广、包含信息最完整的区域水文地质图空间数据库成果,是地质领域全国性最重要的基础信息资源之一。

DataCite Commons 收录