five

KG-FRUS

收藏
arXiv2023-10-30 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2311.01606v1
下载链接
链接失效反馈
官方服务:
资源简介:
KG-FRUS是一个基于图的数据集,涵盖了127年的美国外交关系,由瑞士数据科学中心和哥伦比亚大学的历史实验室合作创建。该数据集包含超过300,000份美国政府外交文件,这些文件被编码成知识图谱(KG)格式,以捕捉文档间及实体间的复杂关系。数据集的创建过程涉及从XML格式的FRUS文件中提取信息,并通过自然语言处理技术进一步丰富图谱。KG-FRUS的应用领域广泛,旨在通过图谱结构深入理解外交、国际关系和政治动态,解决传统文档集合无法揭示的实体间关系问题。

KG-FRUS is a graph-based dataset spanning 127 years of U.S. foreign relations, co-created by the Swiss Data Science Center and the Historical Lab at Columbia University. It contains over 300,000 U.S. government foreign affairs documents, which are encoded into Knowledge Graph (KG) format to capture complex inter-document and inter-entity relationships. The dataset's construction workflow involves extracting information from FRUS files in XML format and further enriching the knowledge graph using natural language processing (NLP) techniques. KG-FRUS has wide-ranging applications, aiming to deliver in-depth insights into diplomacy, international relations and political dynamics via its graph structure, and address the challenge of uncovering inter-entity relationships that traditional document collections fail to reveal.
提供机构:
瑞士数据科学中心,苏黎世联邦理工学院
创建时间:
2023-10-30
搜集汇总
数据集介绍
main_image_url
构建方式
在历史档案数字化与知识图谱技术融合的背景下,KG-FRUS数据集的构建始于对《美国对外关系文件》(FRUS)XML格式原始语料的深度解析。研究团队首先依据TEI P5编码规范,系统提取了文档元数据、标注实体(如人物、术语)及文本内容,构建了以“文档”节点为核心、包含时间、地点、发送者等属性的基础图谱模式。随后,通过设计实体统一算法,解决了跨卷宗人物名称指代歧义问题,并利用SPARQL查询与语义相似度计算,将人物节点与Wikidata知识库进行链接,从而引入了国籍、职务、政党等丰富的结构化外部知识。此外,通过集成SpaCy命名实体识别、主题建模等自然语言处理技术,进一步从文档全文中抽取了新的实体与语义主题,显著扩展了图谱的语义维度与历史分析潜力。
特点
KG-FRUS数据集的核心特征在于其以知识图谱形式对跨越127年的美国外交关系进行了结构化与关联化表征。该图谱不仅包含了超过31万份外交文件,更通过800余万个节点与1600余万条关系,深度刻画了文档、人物、国家、地点、主题等多类实体间复杂的时空互动网络。其显著特点包括严格的时间标注,使得外交动态的演变过程得以追溯;通过实体统一与Wikidata链接,实现了历史人物身份的精准消歧与属性丰富化;同时,数据集融合了原始标注、外部结构化知识以及从全文自动提取的语义信息,构成了一个多层次、可扩展的知识体系。这种结构超越了传统文本集合的局限,为研究外交协同、政策网络演化等复杂社会历史现象提供了前所未有的数据基础。
使用方法
KG-FRUS数据集为跨学科研究提供了灵活多元的分析路径。研究者可直接利用Cypher等图查询语言,针对特定历史时期、人物关系或事件脉络进行探索性查询与知识发现。对于计算社会科学研究,可基于图谱结构应用Node2Vec、FastRP等图嵌入算法,学习实体与文档的向量表示,进而进行社区检测、动态相似性分析或角色重要性排序(如PageRank)。数据科学家可借助其丰富的节点与关系类型,开发链路预测、知识图谱补全等模型。历史学与政治学学者则可将图谱作为交互式探索工具,回溯外交事件的关联网络,或结合提取的密文编辑信息与主题分布,进行定性与定量相结合的内容分析。数据集采用的Neo4j图数据库与配套的SQL文本库,确保了大规模图遍历与全文检索的高效性。
背景与挑战
背景概述
KG-FRUS数据集于2023年由瑞士数据科学中心与哥伦比亚大学历史实验室联合创建,旨在将超过30万份美国外交关系文件转化为知识图谱结构。该数据集的核心研究问题在于突破传统文本档案的局限,通过捕捉文档间及实体间的动态关联,为外交关系、地缘政治等复杂社会现象提供更深入的分析框架。其创新性体现在将历时127年的外交文档编码为包含逾80万个节点和900万条关系的图谱,显著提升了历史档案在计算社会科学领域的可利用性与解释力,为国际关系研究与数字人文开辟了新的方法论路径。
当前挑战
KG-FRUS面临的挑战主要集中于两大维度:在领域问题层面,其需应对外交关系分析中多实体交互、时序演化及隐性模式挖掘的复杂性,传统文本分析方法难以有效捕获实体间的协同与动态关系;在构建过程中,挑战包括从非结构化XML文件中提取并统一实体(如姓名的多样表述与跨卷宗标识不一致),以及通过Wikidata进行实体链接时的歧义消解问题。此外,数据集中部分卷宗缺乏人物标注,限制了图谱的完整性,而红acted文本的语义解析与主题建模的泛化能力亦构成技术难点,要求算法在保持高准确率的同时适应历史语言的独特语境。
常用场景
经典使用场景
在历史与政治科学领域,KG-FRUS数据集为研究者提供了一个结构化的知识图谱,用以探索长达127年的美国外交关系动态。该数据集通过将超过30万份外交文档编码为图结构,使得学者能够运用图查询语言或图算法(如Node2Vec、PageRank)来揭示国际行为体之间的互动模式。例如,研究者可以追踪特定国家或人物在不同历史时期的外交影响力演变,从而深入分析冷战、去殖民化等重大事件中的外交策略变迁。
实际应用
在实际应用中,KG-FRUS可服务于政策分析、情报研究与历史教育等多个领域。政府机构或智库可利用该数据集进行外交趋势预测,例如通过分析文档来源的时空分布来识别外交热点的转移;教育工作者则能借助图谱可视化工具,向学生生动展示历史事件中的关键人物网络。此外,数据集中提取的涂黑信息(redaction)为安全研究提供了线索,有助于理解历史决策中的保密逻辑与信息管控模式。
衍生相关工作
KG-FRUS的推出促进了多项相关研究工作的衍生,尤其是在政治知识图谱构建与图机器学习应用方面。例如,基于该数据集的结构,学者可开发动态实体嵌入模型以捕捉外交关系的时序演变,或利用节点重要性算法(如PageRank)量化历史人物的影响力。同时,其构建方法论为其他历史档案(如国会记录、政府档案)的图谱化提供了范本,推动了类似项目如POLARE(巴西政治代理图谱)或BBC政治本体论的扩展与优化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作