rfp_corpus_collection

github2024-02-09 更新2024-05-31 收录

下载链接：

https://github.com/cltl/rfp_corpus_collection

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含关于2019、2020、2021年欧洲歌唱大赛及其参与者的参考基础语料库，涵盖多种语言。数据集用于支持第一届参考、框架和视角研讨会（LREC-COLING 2024）。

This dataset comprises a foundational corpus of references pertaining to the Eurovision Song Contest and its participants for the years 2019, 2020, and 2021, encompassing a variety of languages. It is designed to support the inaugural Workshop on References, Frameworks, and Perspectives (LREC-COLING 2024).

创建时间：

2023-12-14

原始信息汇总

数据集概述

数据集名称

rfp_corpus_collection

数据集内容

包含关于Eurovision Song Festival（2019, 2020, 2021）及其参与者的文本，涵盖多种语言。该数据集是为1st Workshop in Reference, Framing, and Perspective (LREC-COLING 2024)准备的共享或非共享数据集。

数据集结构

corpus_clean: 包含清洗和预处理后的文本数据。
- 每个子文件夹代表特定的Eurovision事件或参与者。
- 示例：Eurovision_Song_Contest_2021
  - texts/: 包含从不同语言的Wikipedia页面爬取的文本。
    - 每种语言的文件夹下包含多个JSON格式的文本文件。
  - wikipedia.json: 提供子语料库的概览和文档来源信息。
corpus_gold: 包含手动标注的数据，结构与corpus_clean相同。

文本表示

每个文档以JSON文件格式存储。
JSON文件包含文本内容、标题、分词版本、原始URL和爬取URL。
部分文档包含手动标注的共指（coreference）和语义角色（srl）信息。

语言处理

初始支持语言：en,nl,it,es,de,fr。
使用langdetect进行自动语言检测，并根据结果扩展支持的语言。

数据收集策略

使用Wikidata标识符访问不同语言的Wikipedia页面。
通过Wayback Machine爬取来源文章。
支持的事件和参与者包括多个国家和年份的Eurovision Song Contest。

注意事项

数据集仍在更新和处理中，仓库将定期更新。

搜集汇总

数据集介绍

构建方式

rfp_corpus_collection数据集的构建基于欧洲歌唱大赛（Eurovision Song Festival）2019至2021年的相关文本，涵盖多种语言。通过Wikidata标识符，研究者访问了不同语言的维基百科页面，并利用Wayback Machine爬取了页面中列出的参考文献。数据集中的文本以JSON格式存储，包含原始文本、标题、分词版本、原始URL以及爬取时使用的Wayback URL。部分文本还提供了手动或自动的语义框架注释、共指消解和实体链接。

使用方法

使用rfp_corpus_collection数据集时，研究者可从`corpus_clean`文件夹中获取经过清洗和预处理的文本数据。每个子文件夹代表一个特定事件或参与者，文本以JSON格式存储，便于直接读取和分析。对于需要手动注释的数据，可访问`corpus_gold`文件夹。数据集还提供了`wikipedia.json`文件，用于快速获取特定事件或语言的文档信息。研究者可通过`Explore_data.ipynb`中的代码示例进一步探索数据，并结合自动工具进行共指消解等高级分析。

背景与挑战

背景概述

rfp_corpus_collection数据集由欧洲歌唱大赛（Eurovision Song Festival）2019年至2021年的多语言文本构成，旨在为2024年第一届参考、框架与视角研讨会（LREC-COLING 2024）提供一个共享或非共享的语料库。该数据集由多个研究机构共同创建，主要聚焦于多语言文本的参考性、框架语义和实体链接等自然语言处理任务。通过利用维基数据标识符，研究人员从维基百科页面及其相关来源中爬取了大量文本，涵盖了多种语言和事件。该数据集的构建不仅为多语言文本分析提供了丰富的资源，还推动了参考解析和语义角色标注等领域的研究进展。

当前挑战

rfp_corpus_collection数据集在构建过程中面临多重挑战。首先，多语言文本的获取与处理需要克服语言多样性和文本来源复杂性的问题，特别是当源文本语言与维基百科页面语言不一致时，语言识别的准确性成为关键。其次，数据集的标注工作涉及大量人工干预，尤其是在核心参考解析和语义角色标注方面，这对标注人员的专业知识和时间投入提出了较高要求。此外，数据集的扩展性也受到限制，例如未包含非英语维基百科条目的相关页面，这可能导致部分语言或事件的覆盖不全。这些挑战不仅影响了数据集的完整性，也对后续研究的广度和深度提出了更高的要求。

常用场景

经典使用场景

rfp_corpus_collection数据集在多语言文本分析和参考框架研究中展现了其独特的价值。该数据集以欧洲歌唱大赛（Eurovision Song Festival）为主题，涵盖了2019至2021年的相关文本，涉及多种语言。研究者可以通过该数据集深入探讨多语言文本中的指代消解、语义角色标注以及实体链接等问题，为跨语言文本理解提供了丰富的实验材料。

解决学术问题

该数据集有效解决了多语言文本分析中的指代消解和语义角色标注等核心问题。通过提供手动和自动标注的文本，研究者能够更准确地分析文本中的指代关系和语义结构。此外，数据集的多语言特性为跨语言文本理解研究提供了重要支持，推动了自然语言处理领域在多语言环境下的技术进步。

实际应用

rfp_corpus_collection数据集在实际应用中具有广泛的价值。例如，在新闻媒体分析中，研究者可以利用该数据集分析不同语言背景下对同一事件的报道差异。此外，该数据集还可用于构建多语言信息检索系统，提升跨语言信息获取的效率和准确性，为全球化背景下的信息传播提供了有力支持。

数据集最近研究