C-QUERI: Congressional Questions, Exchanges, and Responses in Institutions Dataset
收藏arXiv2025-09-26 更新2025-09-30 收录
下载链接:
https://www.govinfo.gov/app/collection/chrg
下载链接
链接失效反馈官方服务:
资源简介:
C-QUERI数据集是一个从美国第108届至第117届国会的委员会听证会记录中提取的问答交流数据集。该数据集包含从16130次听证会中提取的超过300万个语句,并对这些语句进行了分类和标注,为每个交流提供了全面的语料特征。该数据集旨在帮助学者研究国会议员如何寻求信息、构建议题以及如何对证人负责。数据集为研究国会行为、党派性以及民主提供了新的可能性,并为大型、自动化的问答分析提供了一个通用的框架。
The C-QUERI dataset is a question-and-answer (Q&A) conversational dataset extracted from the committee hearing transcripts of the 108th through 117th sessions of the United States Congress. This dataset contains over 3 million utterances extracted from 16,130 hearings, with these utterances categorized and annotated to provide comprehensive corpus features for each conversational exchange. It aims to assist scholars in studying how members of Congress seek information, frame policy issues, and hold witnesses accountable. The dataset offers new opportunities for research on congressional behavior, partisanship, and democracy, as well as a general framework for large-scale, automated Q&A analysis.
提供机构:
宾汉姆顿大学计算机学院、宾汉姆顿大学政治科学系
创建时间:
2025-09-26
搜集汇总
数据集介绍

构建方式
在政治话语分析领域,构建高质量数据集对研究国会听证会中的问答动态至关重要。C-QUERI数据集通过自动化流程从第108至117届国会共16,130场听证会非结构化文本中提取话语单元,采用混合命名实体识别方法结合BERT模型与启发式规则识别发言者身份,并基于迁移学习策略构建问答分类器——利用Reddit问答社区和英国议会问答数据训练BERT模型,最终实现对300余万条话语的自动标注与特征提取。
特点
该数据集最显著的特征在于其规模与标注深度,覆盖20年间76个委员会的听证记录,包含1774名委员与69149名证人的交互数据。其创新性体现在三方面:首次实现听证会话语级别的结构化解析,提供包含语言学特征(如情感倾向、修辞复杂度)的元数据标注,并通过人工验证确保93.96%的话语分割准确率与87.14%的问答分类精度。这种多维度标注为比较不同政党、委员会和听证类型的语言策略提供了实证基础。
使用方法
研究者可借助该数据集开展多维度政治语言学分析,例如通过BERT模型探究政党归属对提问策略的影响,或使用随机森林模型分析不同委员会中的语言特征差异。数据集支持三种典型研究路径:基于传统语言学特征(NELA工具包)的可解释性分析,利用深度学习模型捕捉语义模式,以及通过零样本提示探索大语言模型在政治话语识别中的潜力。所有数据均提供标准化预处理流程,确保跨会话、委员会和听证类型的可比性。
背景与挑战
背景概述
C-QUERI数据集由宾汉姆顿大学计算学院与政治学系联合研发,于2025年正式提出,旨在系统化研究美国国会听证会中的问答互动机制。该数据集覆盖第108至117届国会期间的16,130场听证会,提取超过300万条话语单元,聚焦于揭示两党议员在质询策略、语言风格及信息框架上的系统性差异。作为政治计算领域的重要资源,它突破了传统立法行为研究对投票数据的依赖,为分析民主制度中的审议过程、党派极化及监督效能提供了微观实证基础。
当前挑战
该数据集核心挑战在于如何从非结构化听证会文本中精准分离问答单元,并克服转录文本中发言者标识格式不一致、命名实体识别复杂性等构建难题。在领域研究层面,需解决如何量化党派身份对提问策略的影响,例如区分信息收集与党派叙事的话语特征。此外,模型需捕捉跨委员会、听证类型与政治环境下的动态语言差异,其预测准确率在部分高冲突性委员会达70%,而在技术性委员会中仅略高于基线,凸显了语境依赖性分析的挑战。
常用场景
经典使用场景
在政治学与计算社会科学交叉领域,C-QUERI数据集为研究国会听证会中的质询行为提供了结构化分析基础。该数据集通过提取108至117届国会听证会中的问答对,使研究者能够系统考察议员如何通过提问策略传递党派立场、塑造公共叙事并实施监督职能。其经典应用体现在量化分析两党议员在听证会中的语言差异,例如通过机器学习模型仅依据问题文本即可以59%的准确率预测提问者党派归属,揭示了质询行为中隐含的意识形态信号。
实际应用
在实践层面,该数据集为政府透明度与公众参与提供了技术支撑。媒体机构可借助其分析框架追踪关键政策议题的辩论轨迹,公民组织则能通过可视化工具对比两党议员对特定议题的质询模式。法律从业者可在行政诉讼中引用数据集记录的质询模式作为证据,教育机构亦能将其转化为立法程序教学案例。此外,该数据管道可适配其他民主政体的听证记录,为跨国比较研究提供方法论范式。
衍生相关工作
基于该数据集衍生的研究已拓展至多维度分析。部分学者结合其问答标注体系开发了听证会文本摘要工具,另一些研究则通过时序分析揭示极化现象在监督听证中的演变轨迹。数据集启发的跨机构比较工作,如将美国国会与欧洲议会的质询模式进行对比,深化了对不同民主制度下审议质量的理解。更有研究将其与社交媒体数据关联,探索精英质询策略与公众舆论形成的互动机制。
以上内容由遇见数据集搜集并总结生成



