Corpus of Resolutions: UN Security Council (CR-UNSC)
收藏github2024-05-19 更新2024-05-31 收录
下载链接:
https://github.com/SeanFobbe/cr-unsc
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了联合国安全理事会发布的决议、草案和会议记录的全套数据,转换成丰富且结构化的人机可读格式。数据集包含82个变量,决议文本涵盖六种联合国官方语言,以及草案和会议记录的文本和元数据。
This dataset encompasses a comprehensive collection of resolutions, drafts, and meeting records issued by the United Nations Security Council, transformed into a rich and structured, machine-readable format. The dataset includes 82 variables, with resolution texts available in all six official languages of the United Nations, along with the texts and metadata of drafts and meeting records.
创建时间:
2022-06-09
原始信息汇总
数据集概述
数据集名称: Corpus of Resolutions: UN Security Council (CR-UNSC)
数据来源: 由联合国安全理事会(UNSC)发布,通过联合国数字图书馆获取。
数据处理: 使用R编程语言编写的代码下载并处理联合国安全理事会的决议、草案和会议记录,形成丰富且结构化的人机可读数据集。
数据存储: 数据集永久托管于Zenodo,每个版本具有唯一的数字对象标识符(DOI)。最新版本可通过概念DOI访问:https://doi.org/10.5281/zenodo.7319780
数据集特征
- 变量数量: 82个
- 决议文本: 包含联合国六种官方语言(英语、法语、西班牙语、阿拉伯语、中文、俄语)
- 草案文本: 仅英语
- 会议记录文本: 仅英语
- 其他语言文本链接: 提供其他五种语言的草案和会议记录文本的URL
- 引用数据: 以GraphML格式提供,包括UNSC至UNSC决议及UNSC至UNGA决议
- 参考数据库: 以BibTeX/OSCOLA格式提供,适用于Zotero、Endnote和Jabref
- 代码本: 详细解释数据集使用
- 报告: 包括编译报告和质量保证报告,解释数据集的构建和验证
- 图表: 提供教学、研究和其它用途的高质量图表(PDF和PNG格式)
- 文件格式: 开放且平台独立(CSV、PDF、TXT、GraphML)
- 软件版本控制: 使用Docker
- 数据和源代码发布: 开放数据和开放源代码
- 许可证: 软件发布于GNU通用公共许可证版本3(GNU GPL v3),数据发布于公共领域豁免(CC Zero 1.0)
- 文件安全: 所有文件版本记录均使用安全加密签名(SHA2-256和SHA3-512)
数据集输出
- 代码本: PDF格式
- 编译报告: PDF格式
- 质量保证报告: PDF格式
- 主数据集: CSV文件,ZIP压缩
- 主数据集元数据: CSV文件,ZIP压缩
- 引用数据和元数据: GraphML文件,ZIP压缩
- 参考数据: BIBTEX文件,ZIP压缩
- 决议文本: TXT和PDF文件,ZIP压缩
- 草案文本: PDF文件,ZIP压缩
- 会议记录文本: PDF文件,ZIP压缩
- 完整源代码: ZIP压缩
- 中间结果: ZIP压缩
系统要求
- 操作系统: 参考数据集编译于Debian系统,使用Docker配置时可能需调整。
- 硬盘空间: 至少40GB
- CPU: 推荐多核,使用8核/16线程编译参考数据集,标准配置将使用系统所有核心。
- 编译时间: 约40小时
数据集结构
- 版本控制组件: 包括配置文件、数据集、关键管道组件、报告模板等。
- 中间结果存储: 包括文件、临时文件、分析和输出文件夹。
- 最终结果存储: 输出文件夹。
搜集汇总
数据集介绍

构建方式
CR-UNSC数据集的构建基于R编程语言,通过自动化脚本从联合国数字图书馆下载并处理联合国安理会的决议、草案和会议记录。该过程将这些文档转化为结构化且机器可读的数据集,涵盖了所有六种官方联合国语言的文本。数据集的构建还包括生成引用数据、书目数据库以及详细的代码手册,确保数据的完整性和可解释性。此外,构建过程中使用了Docker进行版本控制,并通过加密签名确保数据的安全性和真实性。
特点
CR-UNSC数据集具有多方面的特点。首先,它包含了82个变量,涵盖了决议文本的多种语言版本,以及草案和会议记录的英文文本。其次,数据集提供了多种格式的文件,如CSV、PDF、TXT和GraphML,以满足不同用户的需求。此外,数据集还包含了详细的代码手册、编译报告和质量保证报告,确保用户能够理解和验证数据的来源和处理过程。最后,数据集的开放性和平台独立性使其易于在不同环境中使用。
使用方法
使用CR-UNSC数据集首先需要准备一个空的项目文件夹,并通过Git克隆GitHub仓库。随后,用户需要创建Docker镜像,并通过执行特定的脚本编译数据集。编译完成后,所有结果将存储在`output/`文件夹中。用户可以通过提供的R脚本和Docker配置文件进行数据集的编译和验证。此外,数据集还提供了可视化工具,帮助用户检查和理解数据处理流程。对于遇到的问题,用户可以通过提供的命令进行故障排查,并通过GitHub的Issue Tracker或电子邮件联系数据集的维护者。
背景与挑战
背景概述
联合国安全理事会(UNSC)的决议、草案及会议记录是国际关系与外交政策研究的重要资源。Corpus of Resolutions: UN Security Council (CR-UNSC)数据集由Seán Fobbe及其团队创建,旨在通过R编程语言从联合国数字图书馆中提取并处理这些文档,形成一个结构化且可供人类和机器阅读的数据集。该数据集不仅涵盖了所有六种联合国官方语言的决议文本,还包括了草案和会议记录的多种语言版本,以及相关的元数据和引用数据。CR-UNSC数据集的发布为国际法、外交政策分析以及多语言文本处理等领域的研究提供了宝贵的资源,其开放获取的特性进一步促进了学术界和政策界的广泛应用。
当前挑战
CR-UNSC数据集的构建面临多重挑战。首先,处理多语言文本数据,尤其是确保六种联合国官方语言的文本质量和一致性,是一项复杂的技术任务。其次,从联合国数字图书馆中自动下载和处理大量文档,需要高效的编程和数据管理技术,以确保数据的完整性和准确性。此外,生成高质量的元数据和引用数据,以及确保数据集的长期可访问性和版本控制,也是构建过程中需要克服的难题。最后,确保数据集的开放性和透明性,同时维护其安全性和完整性,是该数据集在发布和维护过程中面临的重要挑战。
常用场景
经典使用场景
在联合国安全理事会(UNSC)的决策分析领域,CR-UNSC数据集的经典使用场景主要体现在对决议文本的深度分析与跨语言比较研究中。该数据集不仅包含了所有六种官方语言的决议文本,还提供了决议草案和会议记录的详细信息,使得研究者能够全面探讨UNSC的决策过程及其国际影响。
解决学术问题
CR-UNSC数据集通过提供多语言的决议文本和详细的元数据,解决了国际关系研究中关于UNSC决策过程的透明度和一致性问题。这一数据集使得学者能够量化分析UNSC的决策模式,揭示其在全球治理中的作用,并为国际法和外交政策的制定提供了宝贵的实证依据。
衍生相关工作
基于CR-UNSC数据集,许多经典工作得以展开,包括对UNSC决议的文本分析、跨语言比较研究以及决策过程的量化分析。这些研究不仅深化了对UNSC决策机制的理解,还为国际关系理论的发展提供了新的视角。此外,该数据集还促进了多语言文本处理技术的发展,推动了自然语言处理在法律和政策分析中的应用。
以上内容由遇见数据集搜集并总结生成



