NewYeS corpus

github2022-09-27 更新2024-05-31 收录

下载链接：

https://github.com/annatramarin/a-corpus-of-New-Years-Speeches

下载链接

链接失效反馈

官方服务：

资源简介：

NewYeS语料库是一个多语言语料库，包含丹麦、法国、意大利、挪威、西班牙和英国等欧洲国家元首在年末发表的圣诞信息和新年前夕演讲的文本记录。该语料库从多个网络来源收集，主要来自官方皇家或总统网站，按国家划分，每个演讲文本以国家_年份命名保存在.txt文件中。

The NewYeS corpus is a multilingual corpus that includes textual records of Christmas messages and New Year's Eve speeches delivered by the heads of state of various European countries, such as Denmark, France, Italy, Norway, Spain, and the United Kingdom. This corpus was compiled from multiple web sources, primarily from official royal or presidential websites, and is organized by country. Each speech text is named according to the format 'country_year' and is stored in .txt files.

创建时间：

2022-09-13

原始信息汇总

a_corpus_of_New_Years_Speeches 数据集概述

数据集描述

名称: NewYeS (New Years Speeches) 语料库
内容: 包含多个欧洲国家（丹麦、法国、意大利、挪威、西班牙和英国）的国家元首在年末发表的圣诞信息和新年演讲的转录文本。
文件格式: 每个演讲以".txt"文件格式存储，命名遵循"国家_年份"的规则。
数据范围:
- 丹麦: 1946-2021
- 意大利和西班牙: 1949-2021
- 英国: 1952-2021
- 挪威: 1957-2021
- 法国: 1960-2021

数据集使用

引用: 引用该数据集时，请参考论文 "NewYeS: A Corpus of New Year’s Speeches with a Comparative Analysis" (Tramarin & Strapparava, 2022)。
分析工具: 使用Stanza进行POS标记，并分析了诸如"God"提及频率、正面情感随年份的变化趋势以及宗教元素的频率等。

数据集分析

分析内容:
- 提及"God"的频率
- 正面情感随年份的变化
- 宗教元素的频率

数据集许可证

许可证: 本工作根据Creative Commons Attribution 4.0 International License授权。

搜集汇总

数据集介绍

构建方式

NewYeS语料库的构建基于多国元首在年末发表的圣诞致辞和新年演讲的文本转录。这些文本主要从各国官方王室或总统网站收集，涵盖了丹麦、法国、意大利、挪威、西班牙和英国等国家的演讲内容。每个演讲被存储为以“国家_年份”命名的.txt文件，时间跨度从1946年至2021年不等，具体取决于网络资源的可用性。

特点

NewYeS语料库的一个显著特点是其多语言性质，涵盖了多个欧洲国家的官方语言。此外，语料库中的文本经过词性标注处理，并提供了脚本用于分析演讲中的高频词汇。语料库还包含了对宗教元素、情感变化等内容的比较分析，为研究政治话语中的文化和社会变迁提供了丰富的数据支持。

使用方法

使用NewYeS语料库时，研究人员可以通过提供的脚本对文本进行词性标注和词汇频率分析。例如，使用Stanza库对英国演讲文本进行递归词性标注，或提取演讲中最常见的内容词。语料库还支持对特定词汇（如“上帝”）的提及频率、积极情感率的变化以及宗教元素的频率进行深入分析，适用于政治语言学、社会语言学等领域的研究。

背景与挑战

背景概述

NewYeS语料库是一个多语言语料库，收录了欧洲多个国家元首在年末发表的圣诞致辞和新年演讲的文本。该语料库由Tramarin和Strapparava于2022年引入，旨在通过比较分析揭示不同国家元首在年末演讲中的语言特征和情感表达。语料库涵盖了丹麦、法国、意大利、挪威、西班牙和英国等国家的演讲文本，时间跨度从20世纪中期至2021年。这些文本主要来源于官方王室或总统网站，并按国家和年份进行组织。NewYeS语料库的发布为政治语言学、情感分析和跨文化研究提供了重要的数据支持，推动了相关领域的深入研究。

当前挑战

NewYeS语料库在构建和应用过程中面临多重挑战。首先，语料库的收集依赖于网络资源的可用性，部分国家的早期演讲文本可能因数字化程度不足而缺失，导致数据的不完整性。其次，多语言文本的处理需要依赖不同的自然语言处理工具，如Stanza等，这对语料库的标注和分析提出了较高的技术要求。此外，跨文化比较分析的复杂性也是一个重要挑战，不同国家的语言习惯、文化背景和政治语境差异显著，如何准确捕捉并量化这些差异成为研究的难点。最后，语料库的开放性和可扩展性仍需进一步提升，以满足更多研究需求。

常用场景

经典使用场景

NewYeS语料库广泛应用于语言学和政治学领域的研究，特别是在多语言文本分析和情感分析中。研究者通过分析不同国家元首的新年演讲，探讨语言使用的变化、情感表达的差异以及宗教元素的提及频率。这些分析不仅揭示了语言随时间的变化趋势，还反映了不同文化背景下的政治和社会价值观。

衍生相关工作

基于NewYeS语料库，研究者已经开展了多项经典工作。例如，Tramarin和Strapparava（2022）通过比较分析不同国家新年演讲中的宗教元素和情感表达，揭示了语言与文化的深层联系。此外，其他学者利用该数据集开发了多语言情感分析模型，进一步推动了自然语言处理技术在跨文化研究中的应用。

数据集最近研究