AFFILKG
收藏arXiv2025-05-16 更新2025-05-20 收录
下载链接:
https://doi.org/10.5281/zenodo.15427977
下载链接
链接失效反馈官方服务:
资源简介:
AFFILKG是一个包含六个数据集的集合,这些数据集将完整的书籍扫描与大型、标记的知识图谱配对。每个数据集都包含一个隶属图,这是一个简单的知识图谱,用于捕获 PERSON 和 ORGANIZATION 实体之间的 MEMBER 关系。这些图谱对于研究移民、社区互动和其他社会现象非常有用。此外,三个数据集还包括具有更多关系类型的扩展知识图谱。AFFILKG 的初步实验表明,模型性能在不同数据集之间存在显著差异,这突出了 AFFILKG 能够实现两个关键进展:1)基准测试提取错误如何传播到图形级分析(例如,社区结构),2)验证知识图谱提取方法在现实世界社会科学研究中的有效性。
AFFILKG is a collection of six datasets that pair full book scans with large, labeled knowledge graphs. Each dataset includes an affiliation graph, a simplified knowledge graph designed to capture MEMBER relationships between PERSON and ORGANIZATION entities. These graphs are highly useful for researching migration, community interaction, and other social phenomena. Additionally, three of the datasets feature expanded knowledge graphs with additional relationship types. Preliminary experiments on AFFILKG have revealed significant disparities in model performance across different datasets, which highlights that AFFILKG enables two key advancements: 1) Benchmarking how extraction errors propagate to graph-level analyses (e.g., community structure), and 2) Validating the effectiveness of knowledge graph extraction methods in real-world social science research.
提供机构:
马萨诸塞大学安姆斯特分校
创建时间:
2025-05-16
搜集汇总
数据集介绍

构建方式
AFFILKG数据集通过半自动方法构建,结合了规则算法与人工验证。首先,研究者针对每本历史社会登记册的复杂文本模式设计了定制化的正则表达式和基于规则的算法,用于提取<PERSON, MEMBER, CLUB>三元组。为确保数据质量,两名标注者独立标注了每本书中随机选取的4-6页内容,形成约200个三元组的验证集。对于丹佛数据集,由于规模较小,采用全人工标注。文本通过Claude Sonnet OCR模型数字化后,经人工校对消除转录误差。这种构建方式在保持高精度(多数情况下达100%准确率)的同时,充分考虑了历史文献的格式多样性。
特点
作为首个将完整书籍扫描件与大规知识图谱配对的数据集,AFFILKG具有三大核心特征:其一,包含六组基于不同时空背景的精英社群网络(如1892年纽约、1963年罗得西亚),覆盖19世纪末至20世纪中叶的跨地域社会结构;其二,提供简洁实用的二分隶属关系图谱(MEMBER关系)和包含4-11种扩展关系类型(如COLLEGE、YACHT NAME)的增强图谱;其三,数据集规模显著优于现有资源,单组数据最高包含14,061条关系边和5,553个个人节点。这些特性使其特别适用于研究社群凝聚力、社会分层等宏观社会学问题。
使用方法
使用AFFILKG需遵循三阶段流程:首先通过OCR系统(如Gemini或DocumentAI)将书籍扫描件转换为机器可读文本;随后采用大语言模型(如GPT-4o或Llama 3)进行关系抽取,推荐使用包含示例的单样本上下文学习提示策略;最终可进行微观层面(三元组F1值)和宏观层面(如俱乐部规模RMAE误差)的双重评估。数据集特别支持研究关系抽取错误如何影响下游图分析,用户可通过比较不同模型在边缘正确性与社群结构指标上的表现,评估知识图谱在实际社会科学研究中的适用性。
背景与挑战
背景概述
AFFILKG数据集由马萨诸塞大学阿默斯特分校的研究团队于2025年推出,旨在解决知识图谱(KG)自动提取中的关键评估缺口。该数据集首次将完整书籍扫描件与大规模标注知识图谱配对,包含六个子集,主要捕捉个人与组织之间的成员关系(MEMBER),适用于研究移民、社区互动等社会现象。AFFILKG通过提供高质量的标注数据,支持从文本中提取社会网络的研究,填补了现有数据集在连通性、规模和复杂性上的不足,为社会科学和自然语言处理领域的交叉研究提供了重要资源。
当前挑战
AFFILKG面临的挑战主要体现在两个方面:领域问题方面,现有关系抽取(RE)评估难以反映知识图谱提取错误对下游图分析(如社区结构识别)的影响,而AFFILKG通过提供连通性强的标注图谱解决了这一问题;构建过程方面,由于历史文本格式复杂多变,需针对每本书设计特定的正则表达式和基于规则的算法,部分子集甚至需全手动标注,导致构建过程耗时耗力(如部分正则表达式代码量达540行),凸显了开发高效自动化方法的迫切性。此外,OCR转录误差及文本中家庭关系、地址等跨行信息的关联也增加了数据标注的复杂度。
常用场景
经典使用场景
AFFILKG数据集在知识图谱(KG)构建和社会网络分析领域具有经典应用场景。该数据集通过将完整书籍扫描件与大规模标注的知识图谱配对,为研究者提供了丰富的社交关系数据。其核心应用场景包括从历史文本中提取人物与组织之间的成员关系(MEMBER),构建二分 affiliation 图,这种结构特别适合研究精英社区的社会网络、迁移模式以及群体互动动态。数据集中的三元组形式(如⟨人物; MEMBER; 俱乐部⟩)为分析社区凝聚力和社会分层提供了标准化框架。
实际应用
在实际应用层面,AFFILKG为历史社会学和计算社会科学提供了宝贵资源。其标注的精英社交网络数据可直接应用于研究权力结构演变、社会资本传承等现实问题。例如,通过分析迈阿密(1965年)数据集中游艇俱乐部成员关系,可追溯当地精英群体的社交模式;而波士顿(1903年)数据集中的教育背景关系网络,则有助于研究高等教育与社会阶层流动性的关联。这些应用对政策制定者理解历史不平等形成机制具有参考价值。
衍生相关工作
该数据集已衍生出多个经典研究方向。在方法学层面,研究者基于AFFILKG开发了低资源关系提取技术,如Wan等人(2023)提出的GPT-RE框架;在应用层面,Corradi等人(2024)利用其二分网络结构分析了恐怖组织网络特征。数据集还推动了OCR与大型语言模型融合的研究,如表3所示的Gemini与DocAI对比实验,为历史文档数字化提供了新范式。这些工作共同拓展了知识图谱在社会网络分析中的方法论边界。
以上内容由遇见数据集搜集并总结生成



