联合国数据集(UNBench)
收藏arXiv2025-02-20 更新2025-02-22 收录
下载链接:
https://github.com/yueqingliang1/UNBench
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了从1994年到2024年联合国安理会公开的草案决议、投票记录和外交演讲。它由伊利诺伊理工学院等机构创建,旨在为政治科学研究中的大型语言模型的应用提供支持。数据集覆盖了安理会决策过程中的三个阶段:起草、投票和讨论,包含了与这些阶段相关的四种任务,用于评估LLM在理解政治动态和模拟政治决策方面的能力。
This dataset contains publicly available draft resolutions, voting records, and diplomatic speeches of the United Nations Security Council from 1994 to 2024. It was developed by institutions including the Illinois Institute of Technology, and is designed to support the application of Large Language Models (LLMs) in political science research. The dataset covers three stages of the Security Council's decision-making process: drafting, voting, and deliberation, and includes four tasks associated with these stages, which serve to evaluate the capacity of LLMs to comprehend political dynamics and simulate political decision-making.
提供机构:
伊利诺伊理工学院, Salesforce, 芝加哥大学, Meta, 思科, 埃默里大学
创建时间:
2025-02-20
搜集汇总
数据集介绍

构建方式
联合国数据集(UNBench)的构建始于对联合国安全理事会(UNSC)自1994年至2024年间的公开记录的系统性搜集,包括草案决议、投票记录和外交演讲。这些数据通过共享标识符(如决议编号、会议记录ID)进行关联,从而形成一个连贯的数据集。为了克服数据缺失或不完整的问题,研究人员通过交叉引用多个UN存储库、手动整理模糊条目和应用标准命名约定来填补空白。为了适应不同年代文档格式的多样性,使用了自适应网络爬虫脚本来检测布局差异,并执行迭代质量检查以确保数据一致性。此外,将PDF格式的官方文档转换为纯文本,以供LLM使用,并通过基于LLM的解析器处理复杂的格式问题。
特点
UNBench数据集的特点在于其全面性和多面性。它不仅涵盖了联合国安全理事会决策过程中的三个关键阶段——起草、投票和讨论,而且还设计了四个相互关联的任务,以评估LLM在不同阶段的能力。这些任务包括:共同持有人判断、代表投票模拟、草案通过预测和代表声明生成。每个任务都旨在评估LLM在模拟政治动态、预测投票行为、理解外交语言和生成有说服力的声明方面的能力。此外,UNBench数据集的时间跨度长达30年,这为时间序列分析提供了丰富的数据,如预测外交行为趋势、预测国际联盟的变动或分析历史事件对UNSC动态的影响。
使用方法
使用UNBench数据集的方法包括但不限于以下几个方面:首先,LLM研究人员可以利用该数据集来评估和改进LLM在理解国际关系方面的能力,包括联盟识别、问题特定投票预测和外交行为预测等。其次,通过预测草案决议的通过情况,利益相关者可以调整谈判策略、更有效地分配资源并建立联盟。最后,模拟特定国家的投票行为可以帮助利益相关者预测关键国家的立场,识别潜在的盟友或对手,并相应地调整外交接触策略。总之,UNBench数据集为LLM研究和国际治理决策支持提供了一个宝贵的资源。
背景与挑战
背景概述
在自然语言处理领域,大型语言模型(LLMs)取得了显著进展。然而,它们在高风险政治决策中的应用潜力尚未得到充分探索。本文通过关注LLMs在联合国(UN)决策过程中的应用,填补了这一空白。联合国数据集(UNBench)是一个包含1994年至2024年联合国安全理事会(UNSC)公开记录的新数据集,包括决议草案、投票记录和外交演讲。利用这个数据集,我们提出了联合国基准(UNBench),这是第一个全面评估LLMs在四个相互关联的政治科学任务中的能力的基准:共同提案人判断、代表投票模拟、草案通过预测和代表声明生成。这些任务涵盖了联合国决策过程的三个阶段——起草、投票和讨论,旨在评估LLMs理解和模拟政治动态的能力。我们的实验分析展示了LLMs在该领域的潜力和挑战,并提供了关于它们在政治科学中的优势和局限性的见解。这项工作有助于人工智能和政治科学的不断交汇,为全球治理的研究和实际应用开辟了新的途径。
当前挑战
联合国数据集(UNBench)相关的挑战包括:1)LLMs在高风险政治决策中的应用挑战;2)LLMs在理解和模拟复杂政治动态方面的能力限制;3)LLMs在生成符合外交规范和特定国家立场的声明方面的挑战。
常用场景
经典使用场景
联合国数据集(UNBench)最经典的使用场景是在联合国决策过程中,特别是安全理事会(UNSC)的决策过程。该数据集包含了从1994年到2024年的公开可用的UNSC记录,包括草案决议、投票记录和外交演讲。使用这个数据集,研究者可以评估大型语言模型(LLMs)在四个相互关联的政治科学任务上的能力:共同执笔人判断、代表投票模拟、草案采用预测和代表声明生成。这些任务涵盖了联合国决策过程的三个阶段:起草、投票和讨论,旨在评估LLMs理解和模拟政治动态的能力。
实际应用
联合国数据集(UNBench)在实际应用场景中具有广泛的应用价值。对于LLM研究人员来说,UNBench可以作为一个丰富的测试平台,用于推进LLMs在政治科学和时序分析领域的研究。对于联合国利益相关者来说,UNBench可以帮助预测和分析UNSC的决策过程,从而调整谈判策略、更有效地分配资源并建立联盟,以提高决议成功的可能性。此外,UNBench还可以用于模拟国家特定的投票行为,帮助利益相关者预测关键国家的立场,识别潜在的盟友或对手,并相应地调整外交工作。
衍生相关工作
联合国数据集(UNBench)的引入推动了政治科学领域LLM相关研究的发展。基于UNBench,研究者可以进行更多的实验和评估,以了解LLMs在政治科学任务上的性能和局限性。此外,UNBench还可以作为其他相关研究的参考,例如,研究者可以使用UNBench的数据和任务来评估LLMs在预测国际关系趋势、模拟外交行为、生成外交文本等方面的能力。
以上内容由遇见数据集搜集并总结生成



