Congress Committee Hearing Dataset (CoCoHD)

Name: Congress Committee Hearing Dataset (CoCoHD)
Creator: 佐治亚理工学院
Published: 2024-10-04 10:49:18
License: 暂无描述

arXiv2024-10-04 更新2024-10-08 收录

下载链接：

https://github.com/gtfintechlab/CoCoHD

下载链接

链接失效反馈

官方服务：

资源简介：

Congress Committee Hearing Dataset (CoCoHD) 是由佐治亚理工学院创建的一个全面的数据集，涵盖了从1997年到2024年美国国会86个委员会的32,697次听证会记录。该数据集包含32,435份听证会记录及其元数据，旨在帮助研究人员分析政策语言，特别是在医疗保健、LGBTQ+权利和气候正义等关键问题上。数据集的创建过程包括从GovInfo网站抓取听证会细节和记录，设计易于使用的数据结构，并过滤错误记录。CoCoHD的应用领域广泛，包括能源政策、气候变化、移民、种族正义和LGBTQ权利等，旨在通过自然语言处理技术提高对国会听证会的理解和透明度。

Congress Committee Hearing Dataset (CoCoHD) is a comprehensive dataset created by the Georgia Institute of Technology, covering 32,697 hearing records from 86 U.S. congressional committees between 1997 and 2024. The dataset contains 32,435 valid hearing records and their associated metadata, and is intended to help researchers analyze policy language, particularly on critical issues such as healthcare, LGBTQ+ rights, and climate justice. The development of CoCoHD involved scraping hearing details and records from the GovInfo website, designing easy-to-use data structures, and filtering out erroneous entries. CoCoHD has broad application domains including energy policy, climate change, immigration, racial justice, and LGBTQ rights, with the goal of enhancing the understanding of and transparency into congressional hearings through natural language processing technologies.

提供机构：

佐治亚理工学院

创建时间：

2024-10-04

原始信息汇总

CoCoHD (Congress Committee Hearing Dataset)

数据集概述

CoCoHD数据集包含美国国会能源和商务委员会听证会的相关数据，旨在分析这些听证会如何支持或反对化石燃料和清洁能源的使用。

数据集内容

数据集包含以下三个子集：

听证会记录：
- 包含1997年至2023年的30,000多份听证会记录，格式为txt。
- 下载地址：Hearing transcripts
听证会详情：
- 包含每个听证会的详细信息，格式为JSON。
- 下载地址：Hearing details
听证会详情（已清理）：
- 包含每个听证会的详细信息，格式为Pandas dataframe。
- 已清理的内容包括：过去的委员会名称映射到最新名称；无效的held_date被移除；错误记录被移除。
- 下载地址：Hearing details (cleaned)

数据收集

数据集从GovInfo网站抓取。数据收集过程包括收集听证会记录和听证会详情的链接，然后分别收集这些数据。

数据清理

数据清理脚本用于初步数据清理和预处理，包括将文本记录转换为Pandas数据框，将话语分割为句子单元，并根据提议的与能源相关的关键词列表进行过滤。

探索性分析

包含用于初步探索性数据分析的笔记本，提供关于国会听证会模式和能源和商务委员会运作方式的见解。

微调与分类

包含用于微调预训练语言模型以扩展手动注释到完整数据集的代码。训练了两个分类器：相关性分类器和增/减分类器，使用了两个PLM：RoBERTa-base和RoBERTa-large。

市场分析

包含生成最终统计数据和研究结果的笔记本，还包括许多探索性分析，解释和支持决策，如阈值选择、市场特征计算和相关性评估。

搜集汇总

数据集介绍

构建方式

CoCoHD数据集的构建始于对美国国会委员会听证会记录的系统性收集与整理。研究团队从1997年至2024年间，涵盖86个委员会的32,697次听证会中，筛选并整理出32,435份听证会记录及其相关元数据。这一过程包括从GovInfo网站上爬取听证会详情和记录，设计便于使用的数据集结构，剔除错误记录，并按委员会分类听证会。通过两阶段爬取流程，首先获取听证会列表及其记录和详情页的链接，随后下载记录文件并抓取详情，存储为JSON格式。

特点

CoCoHD数据集的显著特点在于其全面性和细致的元数据。该数据集不仅包含丰富的听证会记录，还提供了详细的元数据，如参与者姓名、日期和讨论主题，极大地提升了数据的可访问性和分析效率。此外，数据集通过标准化委员会名称和识别子委员会，解决了原始数据中委员会命名不一致的问题，增强了数据的一致性和可用性。

使用方法

CoCoHD数据集的使用方法多样，适用于多种自然语言处理（NLP）任务。研究者可以通过分析听证会记录中的语言趋势、主题频率和参与者互动，来研究政策语言和立法动态。例如，可以通过微调预训练语言模型，量化听证会对特定议题的态度，如能源政策。数据集的开放性和详细元数据支持多层次分析，从跨听证会、单个听证会内部到参与者级别，满足不同研究需求。

背景与挑战

背景概述

美国国会听证会（Congress Committee Hearing Dataset, CoCoHD）是由Arnav Hiray、Yunsong Liu、Mingxiao Song、Agam Shah和Sudheer Chava等研究人员在乔治亚理工学院创建的。该数据集涵盖了1997年至2024年间86个委员会的32,697份记录，旨在填补分析这些重要讨论的全面数据集的空白。CoCoHD不仅为研究人员提供了研究政策语言的机会，还通过案例研究展示了其在能源相关问题上的应用潜力。通过微调预训练语言模型，该数据集能够量化每场听证会对化石燃料消费的态度，从而预测和突出能源部门的趋势。

当前挑战

CoCoHD数据集在构建过程中面临多个挑战。首先，现有公开的国会听证会数据存在委员会命名不一致和缺少子委员会信息的问题，这增加了数据准确跟踪和分析的难度。其次，听证会文本的格式不标准化，导致文本分割和解析的复杂性。此外，由于听证会内容的复杂性和长度，全面跟踪其发展并弥合国会活动与公众理解之间的知识差距变得尤为困难。这些挑战要求开发新的资源和方法，以进行大规模的听证会趋势和议题分析，从而提高透明度并促进基于证据的决策。

常用场景

经典使用场景

CoCoHD数据集的经典使用场景在于通过自然语言处理技术分析美国国会委员会听证会的文本，以揭示政策语言在关键问题上的立场。例如，研究人员可以利用该数据集对能源和商业委员会在化石燃料消费方面的立场进行深入分析，通过微调预训练语言模型，生成与能源相关的度量标准，从而预测和突出能源行业的趋势。

衍生相关工作

CoCoHD数据集的发布催生了一系列相关研究工作，特别是在自然语言处理和立法分析领域。例如，有研究利用该数据集分析国会演讲中的党派差异和语言复杂性变化，揭示了政治演讲风格和关注点的转变。此外，还有研究探讨了性别偏见在国会听证会中的表现，以及女性在国会委员会中的参与如何影响讨论动态，这些研究都进一步丰富了对立法过程的理解。

数据集最近研究