联合国大会一般性辩论语料库 (UNGDC)

Name: 联合国大会一般性辩论语料库 (UNGDC)
Creator: 都柏林城市大学
Published: 2017-07-10 17:40:12
License: 暂无描述

arXiv2017-07-10 更新2024-06-21 收录

下载链接：

http://dx.doi.org/10.7910/DVN/0TJX8Y

下载链接

链接失效反馈

官方服务：

资源简介：

联合国大会一般性辩论语料库（UNGDC）是由都柏林城市大学、伯明翰大学和埃塞克斯大学的研究团队创建，包含了1970至2014年间超过7,300个国家的发言记录。该数据集主要用于通过文本分析方法推导国家在不同政策维度上的立场，为国际政治研究提供新的视角和工具。数据集内容丰富，涵盖了国际政治中的主要议题，如恐怖主义、核不扩散、发展和援助、气候变化等。创建过程中，研究团队对发言进行了预处理、分类和准备，以适应实证应用。UNGDC的应用领域广泛，旨在解决国际政治研究中关于国家政策偏好及其影响的问题。

The United Nations General Assembly Debates Corpus (UNGDC) was created by a research team from Dublin City University, the University of Birmingham, and the University of Essex. It contains over 7,300 national statements delivered between 1970 and 2014. This corpus is primarily used to derive countries' stances across different policy dimensions via textual analysis methods, providing novel perspectives and tools for international politics research. The corpus covers a rich set of core issues in international politics, including terrorism, nuclear non-proliferation, development and aid, climate change, and other related topics. During its development, the research team preprocessed, categorized, and curated the statements to adapt to empirical applications. The UNGDC has a wide range of application fields, aiming to address research questions regarding national policy preferences and their impacts in international politics studies.

提供机构：

都柏林城市大学

创建时间：

2017-07-10

搜集汇总

数据集介绍

构建方式

联合国大会一般性辩论语料库（UNGDC）的构建基于联合国大会年度一般性辩论的官方发言记录。研究团队从联合国达格·哈马舍尔德图书馆及联合国书目信息系统（UNBIS）系统收集了1970年至2014年间的发言文本，涵盖第25至69届会议。对于1992年之前的图像化文档，团队采用光学字符识别技术进行预处理，确保文本可读性。所有非英语发言均使用联合国提供的官方英文译本，最终形成包含7,314份国家声明、覆盖198个国家的标准化英语语料库。语料库还整合了发言者身份信息，如国家元首、外交部长等，以增强数据的多维分析潜力。

特点

该语料库的核心特点在于其独特的外交政策表达载体价值。一般性辩论发言不受联合国决议投票的制度性约束，各国能更自由地阐述政策立场与优先议题，从而更准确地反映国家偏好与战略信号。语料库时间跨度长达45年，覆盖全球绝大多数国家，为纵向比较国际政治议题演变提供了连续数据基础。此外，发言文本包含丰富的语义信息，可通过文本分析方法量化国家在多维政策议题上的立场差异，弥补了传统投票数据在议题覆盖与语义深度上的局限。

使用方法

UNGDC主要应用于国际关系与比较政治学的定量文本分析。研究者可通过词袋模型、文本缩放技术（如Wordscore、Wordfish）或对应分析等方法，从发言中提取国家在特定政策维度上的立场分数。例如，通过设定参考文本（如美俄发言）可量化各国在双边关系议题上的倾向性；多维分析则能揭示国家在安全、发展等复合议题上的偏好结构。语料库亦支持历史案例研究，通过对比不同时期发言文本，追踪外交政策演变轨迹。数据以结构化格式公开，便于整合进计量模型或用于跨国比较研究。

背景与挑战

背景概述

联合国大会一般性辩论语料库（UNGDC）由Alexander Baturo、Niheer Dasandi与Slava J. Mikhaylov等学者于2017年构建，旨在通过文本分析方法解析国际政治中的国家偏好。该数据集收录了1970年至2014年间联合国大会一般性辩论中的7,314份国家声明，覆盖近两百个成员国，内容涉及国际冲突、恐怖主义、气候变化等全球性议题。作为国际关系与比较政治学领域的重要资源，UNGDC弥补了传统联合国投票数据在议题广度与表达自由度上的局限，为量化研究政府政策立场提供了新颖的语料基础，推动了“文本即数据”方法在国际政治分析中的应用。

当前挑战

UNGDC所应对的核心领域挑战在于如何从非结构化的政治演讲中提取可靠的国家偏好度量，以补充传统投票数据的不足。具体而言，该数据集需解决文本中隐含的多维度政策立场识别问题，例如区分战略信号与真实意图，并处理语言表达的跨文化差异。在构建过程中，研究者面临历史文档数字化困难，特别是1970年前的低质量图像文本需借助光学字符识别技术进行预处理；同时，需整合多语言演讲的官方英文译本，并处理国家实体变迁（如苏联解体）带来的数据连贯性挑战，确保语料在时间与空间维度上的一致性与可比性。

常用场景

经典使用场景

在国际关系与政治学领域，联合国大会一般性辩论语料库（UNGDC）为研究者提供了分析国家政策偏好的经典文本数据源。通过应用文本分析方法，如词袋模型、Wordscore或对应分析，学者能够从各国代表在联合国大会的年度演讲中提取关键议题，量化国家在特定政策维度上的立场。例如，利用美国与俄罗斯的演讲作为参考文本，可以构建两国在特定年份的外交政策对立维度，进而映射其他国家的相对立场，揭示国际政治中的联盟与分歧模式。

衍生相关工作

基于UNGDC，学术界衍生出多项经典研究工作。例如，学者将文本缩放技术（如Wordscore）应用于语料库，量化国家在单议题维度（如美俄竞争）上的偏好差异；另有研究采用对应分析（CA）提取多维度政策立场，并整合至国际关系模型中，如分析国家签署非引渡协议的影响因素。这些工作不仅推动了文本即数据方法在国际政治中的普及，还催生了跨学科合作，如将自然语言处理技术与政治学理论结合，进一步拓展了对外交语言、战略传播及国际制度影响力的研究。

数据集最近研究