Sentinel Project

github2026-03-01 更新2026-03-02 收录

下载链接：

https://github.com/Sentinel-Intelligence/sentinel-public

下载链接

链接失效反馈

官方服务：

资源简介：

Sentinel是一个Neo4j知识图谱，融合了15个以上的公共联邦数据库，用于映射美国国会的影响力网络。每个立法者、公司、PAC、游说者、交易、捐赠和委员会关系都连接在一个单一的可查询图谱中。系统对所有1,228名当前和近期的立法者进行评分，使用影响力暴露分数（IES v3.5），在34个审计的闭环腐败案例中验证了AUC 0.9575。

Sentinel is a Neo4j knowledge graph integrating over 15 public federal databases, designed to map the influence network of the U.S. Congress. Every legislator, corporation, PAC, lobbyist, transaction, donation and committee relationship is linked within a single queryable graph. The system scores all 1,228 current and recent legislators using the Influence Exposure Score (IES v3.5), and achieves an AUC of 0.9575 when validated against 34 audited closed-loop corruption cases.

创建时间：

2026-02-27

原始信息汇总

Sentinel 数据集概述

数据集基本信息

项目名称： The Sentinel Project
数据规模：包含 429,332 个实体节点与 7,296,068 个连接关系。
核心内容：一个融合了超过15个美国联邦公共数据库的Neo4j知识图谱，旨在描绘美国国会中的影响力网络。
核心指标：为1,228名现任及近期议员计算了“影响力暴露分数（IES v3.5）”，该分数在34个经审计的闭环腐败案例上，经多个模型验证的AUC为0.9575。

数据来源

数据集整合了以下主要联邦公共数据源：

FEC Contributions：超过719,000笔竞选捐款。
House PTR / Senate eFD： 16,381笔股票交易披露。
Lobbying Disclosure Act：超过574,000条游说活动关系。
FARA：外国代理人登记信息。
USAspending：超过135万份联邦合同。
SEC EDGAR Form 4：超过67,000笔公司内部人士交易。
Voteview / Congress.gov：投票记录。
CourtListener：司法关联信息。

关键发现

基于数据分析的主要发现包括：

行为分类：改革压力将国会议员分为三类：“退出者”（40人停止交易）、“违抗者”（14人继续交易）和“鲸鱼”（28人，交易次数少但金额巨大）。
卖出高峰：卖出活动在2023年第三季度达到62.1%的高峰，在2024年第四季度交易禁令失败后暴跌至12.4%。
管辖权冲突：立法者继续交易其所在委员会管辖范围内的股票。
CHIPS法案窗口期：在2022年6月至9月的立法窗口期内，有18笔由国会议员进行的半导体股票交易。

技术架构与验证

图谱结构：包含58种节点标签和98种关系类型。
查询引擎：集成了名为“Sentinel Oracle”的微调大模型（Qwen2.5-14B），可将自然语言问题转换为可执行的Cypher查询，在72个保留测试查询中执行准确率达98.6%，语法有效性为100%。
数据溯源：每个节点、边和分数都通过239个证明锚定在XRPL区块链上，以确保不可变的公开来源。
基准测试： Oracle模型在20,055个Cypher查询对上进行LoRA微调，无模式提示的基线准确率为97.2%。

项目状态与内容

当前状态：项目处于积极开发阶段。完整的数据摄取管道、Oracle部署脚本和Neo4j加载程序将在其IC2S2 2026投稿完成同行评审后发布。
当前可用内容：
- 完整的图谱模式文档（58种标签，98种关系类型）。
- IES v3.5的方法论和验证文档。
- 10个有文档说明的Cypher查询示例。
- XRPL来源锚定脚本。
- 所有15个以上联邦数据源的详细说明。
即将发布内容：
- Phoenix数据摄取管道（基于Scrapy的联邦数据ETL）。
- Oracle模型文件及部署配置。
- SCIP持续集成模块。
- 基准测试套件及结果。

学术与政府提交

IC2S2 2026：已向第12届国际计算社会科学会议提交（2026年3月）。
NIST CAISI RFI：针对AI智能体安全的回应，案卷号NIST-2025-0035（2026年3月）。
NCCoE Agent Identity：软件与AI智能体身份概念文件（2026年4月）。

引用与许可

引用文献： Sentinel Intelligence. (2026). Mapping Institutional Capture: A Graph-Based Framework for Detecting Political Influence Networks in U.S. Congressional Financial Disclosures. Submitted to IC2S2 2026.
许可证： MIT License。

联系信息

官方网站： https://sentinelintel.org
联系邮箱： contact@sentinelintel.org
XRPL溯源地址： https://livenet.xrpl.org/accounts/rLFteU7TV2dP2UNteJPFJE8h8sJjPjqkLV

搜集汇总

数据集介绍

构建方式

在政治透明度与影响力分析领域，Sentinel项目通过融合超过十五个联邦公共数据库，构建了一个规模宏大的Neo4j知识图谱。其构建过程系统性地整合了联邦选举委员会捐款记录、国会议员股票交易披露、游说活动数据、外国代理人注册信息以及联邦合同等多元异构数据源。该图谱采用实体解析技术生成了四万六千余条身份关联边，并利用自动化管道将七百二十九万条关系与四十二万九千个实体节点进行结构化连接，最终通过XRPL区块链为每个数据点锚定了不可篡改的公开溯源证明。

特点

该数据集的核心特征在于其开创性地将国会影响力网络进行全景式量化映射，包含五十八种节点标签与九十八种关系类型，形成了目前规模最大的公开国会关系图谱之一。数据集创新性地引入了经过多模型验证的影响暴露指数，在一千二百二十八名现任及近期议员中实现了高达0.9575的曲线下面积评估性能。其配备的专用问答系统能够以98.6%的执行准确率将自然语言转化为可执行的图谱查询语句，同时所有数据均具备区块链存证的可验证性，为学术研究提供了前所未有的透明度和可复现性基础。

使用方法

研究人员可通过Neo4j图数据库平台直接访问该知识图谱，利用其提供的十组示例Cypher查询模板进行网络分析探索。数据集支持对议员交易行为模式、委员会管辖权重叠现象以及立法窗口期市场活动等复杂关系的多维度检索。用户还可借助经过微调的大语言模型接口，使用自然语言提出研究问题，系统将自动生成相应的图谱遍历指令。所有分析结果均可通过区块链哈希值进行源头验证，确保研究过程的完整溯源与结论的可信度。

背景与挑战

背景概述

在政治科学与计算社会科学领域，追踪和分析政治影响力网络一直是一项复杂而关键的研究课题。Sentinel项目于2026年由Sentinel Intelligence LLC构建，旨在通过融合超过15个联邦公共数据库，构建一个大规模的知识图谱，以映射美国国会中的影响力网络。该数据集整合了竞选捐款、股票交易披露、游说活动、联邦合同等多源异构数据，形成了包含42.9万个实体和729.6万条连接的开放图谱。其核心研究问题聚焦于量化立法者的“影响力暴露”，并通过验证的Influence Exposure Score（IES v3.5）模型，以0.9575的AUC值识别潜在的闭环腐败行为，为研究政治腐败、利益冲突和制度俘获提供了创新的数据驱动框架。

当前挑战

Sentinel数据集致力于解决政治影响力网络检测中的核心挑战，即如何从多源、异构且动态的联邦数据中，准确识别和量化隐蔽的利益关联与腐败模式。构建过程中的主要挑战包括：多源数据融合与实体对齐的复杂性，需整合FEC、LDA、FARA等不同结构和更新频率的数据源，并通过46,695条SAME_AS边实现实体解析；数据质量与一致性的保障，涉及对原始披露数据中错误、缺失或格式不一致的处理；以及计算建模的验证难题，需设计可解释的图算法（如IES v3.5）并在有限标注案例（34个审计案例）上实现高精度验证。此外，确保数据的不可篡改性与可追溯性，通过XRPL区块链锚定239个证明，也构成了技术实施上的重要挑战。

常用场景

经典使用场景

在政治学与计算社会科学领域，Sentinel数据集作为大规模开放知识图谱，其经典使用场景在于系统性地揭示美国国会中的影响力网络。研究者通过其融合的15个以上联邦数据库，能够查询立法者、公司、政治行动委员会、游说者之间的复杂关系，并利用影响力暴露分数（IES v3.5）对1228名立法者进行量化评估，从而深入分析政治腐败、利益冲突与立法行为之间的关联模式。

衍生相关工作

围绕Sentinel数据集，已衍生出多项经典研究工作，包括基于Qwen2.5-14B模型微调的Sentinel Oracle自然语言查询系统，其实现了98.6%的执行准确率。同时，该数据集支撑的学术成果已提交至IC2S2 2026等国际会议，并应用于NIST CAISI RFI等政府咨询项目，推动了区块链存证与知识图谱在政治透明度研究中的前沿探索。

数据集最近研究