congress-press

github2026-04-09 更新2026-04-08 收录

下载链接：

https://github.com/dwillis/congress-press

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含从2001年至今超过670,000条国会新闻稿的集合，包括全文，并通过python-statement每日更新。数据集包含来自国会两院超过860名成员的新闻稿，数据以按月份组织的JSONL文件存储。

A dataset containing over 670,000 congressional press releases spanning from 2001 to the present, with full text content included and updated daily via python-statement. It encompasses press releases from more than 860 members of both chambers of the United States Congress, and is stored in monthly-organized JSONL files.

创建时间：

2026-03-30

原始信息汇总

数据集概述

数据集基本信息

数据集名称: congress-press
数据内容: 美国国会议员新闻稿
时间范围: 2001年至今
数据规模: 超过67万条记录
更新频率: 每日更新

数据来源与构成

数据来源: 包含两个来源的数据记录。
- 历史导入数据 (2001-2020年): 约48.6万条新闻稿，包含全文，来自ProPublica Congress API。
- 爬虫收集数据 (2020年至今): 约18.7万条新闻稿，通过自动化爬虫从议员个人网站页面收集并提取文本。
覆盖范围: 涵盖国会两院超过860名议员。截至2026年3月30日，覆盖所有拥有官方网站的现任议员。
数据局限性: 并非完整收录，主要由于已离任议员以及爬虫覆盖不完整的时期导致数据缺失。

数据存储与格式

存储结构: 数据以JSONL文件格式存储，按月份组织在 data/YYYY/YYYY-MM.jsonl 目录下。
记录格式: 每条记录（JSON对象）代表一篇新闻稿，包含以下字段：
- url: 新闻稿原文URL。
- title: 新闻稿标题。
- date: 发布日期（格式为YYYY-MM-DD）。
- date_source: 日期来源（scraper、page_html、legacy 或 newspaper4k）。
- source: 新闻稿列表页URL。
- domain: 域名。
- scraper: 爬虫名称。
- member: 议员信息对象（包含bioguide_id、name、party、state、chamber）。
- text: 新闻稿全文正文。
- collected_at: 数据收集时间戳。
- updated_at: 数据更新时间戳。

数据收集与处理流程

自动化流程: 通过GitHub Actions工作流每日UTC时间5点运行。
主要阶段:
1. 元数据收集: 从536个国会网站爬取新闻稿列表（标题、URL、日期）。
2. 文本提取: 使用newspaper4k为新发布或变更的新闻稿获取全文；当列表页未包含年份时，从单个页面HTML中回填日期。

数据注意事项

文本缺失: 部分记录的 "text" 字段为 null，原因是原页面已被删除或受JavaScript渲染阻碍，但这些记录仍包含有效的元数据。
日期准确性: 部分国会网站列表页显示的日期不包含年份。在此情况下，日期会在文本收集阶段从单个新闻稿页面提取。无法确定年份的记录 "date" 为 null，并可能包含一个 "date_partial" 字段（例如"12-02"）。
历史数据差异: 来自ProPublica导入的记录（date_source: "legacy"）其 "scraper" 和 "source" 字段为 null，且议员信息是根据原始数据集字段构建的。
重复新闻稿: 部分议员会在多个页面或以不同URL发布相同的新闻稿。目前仅根据URL去重，因此内容相同但URL不同的新闻稿会同时存在。
HTML残留: 自动提取的全文可能包含原始HTML中的页面导航、模板页脚或格式残留。

相关依赖与资源

核心依赖项目:
- python-statement: 国会新闻稿爬虫工具集 (https://github.com/dwillis/python-statement)
- newspaper4k: 文章文本提取库 (https://github.com/codelucas/newspaper)
问题反馈与贡献:
- 爬虫相关问题（如数据缺失、日期错误、链接失效）应在 python-statement 项目提交Issue。
- 数据质量问题（如重复记录、文本提取错误、记录归属错误）或对收集脚本的建议，应在 congress-press 项目提交Issue或拉取请求 (https://github.com/dwillis/congress-press/issues)。

搜集汇总

数据集介绍

构建方式

在政治传播研究领域，全面且持续更新的数据资源对于分析立法者沟通策略至关重要。congress-press数据集通过融合历史档案与动态采集两种方式构建而成。其早期数据源自ProPublica国会API的遗留导入，涵盖了2001年至2020年间约48.6万份新闻稿的完整文本。自2020年起，数据集转而采用自动化爬虫系统，每日从超过536个国会官方网站抓取元数据，并利用newspaper4k工具提取全文，从而实现了对当前所有在任议员网站的持续覆盖与更新。

特点

该数据集以其大规模、结构化与时效性而著称，收录了超过67万份跨二十余年的国会新闻稿。每条记录均以JSONL格式存储，不仅包含标题、日期、原文链接及完整正文，还附有详细的议员元数据，如传记指南ID、姓名、所属政党、州别及议院信息。其独特之处在于明确标注了日期来源，并坦然揭示了数据局限，例如部分文本缺失、日期不完整或存在重复条目，这种透明性为研究者评估数据可靠性提供了重要依据。

使用方法

对于希望利用该数据集进行政治学或计算社会科学研究的学者而言，数据按年月组织为JSONL文件，便于进行流式处理或批量分析。用户可通过运行提供的Python脚本在本地执行元数据收集、文本提取及历史数据回填等任务。数据集支持针对特定议员或设定分页深度进行定制化采集，同时鼓励社区通过报告爬虫问题或提交数据质量改进建议来共同参与维护，从而确保资源持续优化与有效利用。

背景与挑战

背景概述

在政治传播与立法行为研究领域，系统性地获取和分析国会议员的公开声明资料，对于理解政策议程、党派动态及代表与选民沟通模式具有关键价值。congress-press数据集由开发者DWillis等人创建并维护，自2020年起持续更新，其核心目标在于构建一个覆盖广泛、文本完整的美国国会新闻稿档案库。该数据集整合了来自ProPublica国会API的历史资料与自动化爬虫采集的实时内容，收录了2001年至今超过67万篇新闻稿，涉及860余名国会议员，为政治学、计算社会科学及媒体研究提供了重要的实证基础。通过每日自动化流程，数据集支持对国会沟通策略、议题演变及党派立场的长期追踪，显著提升了相关领域数据获取的时效性与可及性。

当前挑战

该数据集致力于解决政治文本分析中大规模、高质量语料稀缺的挑战，其构建与应用面临多重困难。在领域问题层面，新闻稿作为非结构化文本，其分析需克服内容重复、表述形式化及议题编码复杂性等障碍，准确提取政策立场与修辞特征存在相当难度。在构建过程中，技术性挑战尤为突出：国会网站结构异构且频繁变更，导致爬虫覆盖不全与历史数据缺失；部分页面依赖JavaScript渲染或已失效，造成文本提取失败或日期信息不完整；此外，数据去重仅依赖URL，无法有效识别内容实质相同的多版本发布，而自动化提取也难免引入HTML格式残留与导航文本噪声，影响了语料的纯净度与一致性。

常用场景

经典使用场景

在政治科学与计算社会科学领域，congress-press数据集为研究者提供了分析美国国会成员沟通策略的宝贵资源。该数据集收录了自2001年至今超过67万份国会新闻稿，涵盖两院860余名议员，其经典使用场景在于追踪立法者如何通过新闻发布塑造公共议程、回应政策议题或进行选区宣传。学者们常利用这些文本数据，结合自然语言处理技术，量化议员在特定议题上的立场演变、党派话语差异或选举周期中的宣传模式变化，从而揭示政治沟通的深层动态。

衍生相关工作

围绕该数据集已衍生出一系列具有影响力的研究工作。例如，有研究利用其文本特征训练模型，自动识别议员的意识形态光谱与议题关注度，推动了政治立场计算方法的进步。另一些工作则结合社交媒体数据，比较国会新闻稿与推特言论的策略差异，深化了对多平台政治传播的理解。此外，该数据集常作为基准语料，用于开发针对政治领域文本的专用自然语言处理工具，如命名实体识别模型与主题建模算法，这些工具进一步反哺了更广泛的政治文本分析生态。

数据集最近研究