five

OpenAustralia

收藏
github2024-08-23 更新2024-08-25 收录
下载链接:
https://github.com/southern-cross-ai/OpenAustralia
下载链接
链接失效反馈
官方服务:
资源简介:
OpenAustralia是一个独立、无党派的网站,致力于使澳大利亚民主更加可访问和透明。该平台允许公民轻松访问、探索和理解澳大利亚议会的进程。通过提供可搜索的议会辩论(Hansard)记录,用户可以跟踪他们的代表在议会中的言行。数据集包括从2006年到2024年记录的众议院和参议院辩论,以及相关的评论。

OpenAustralia is an independent, non-partisan website dedicated to making Australian democracy more accessible and transparent. This platform enables citizens to easily access, explore, and understand the proceedings of the Australian Parliament. By providing searchable parliamentary debate (Hansard) records, users can track the statements and actions of their representatives within the Parliament. The dataset includes House of Representatives and Senate debate records from 2006 to 2024, along with associated commentary.
创建时间:
2024-08-21
原始信息汇总

OpenAustralia 数据集概述

概览

关键词:澳大利亚民主;议会辩论;政府透明度

OpenAustralia 是一个独立非党派的网站,致力于使澳大利亚民主更加易于访问透明。该平台允许公民轻松访问、探索和理解澳大利亚议会的进程。通过提供可搜索的议会辩论(Hansard)记录,用户可以跟踪他们的代表在议会中的言行。

数据来源

原始数据可在 OpenAustralia.org 找到。有关其政策、Hansard 或使用限制的更多详细信息,请从 Help - OpenAustralia 获取信息。

数据结构

OpenAustralia 目录下,

  • recent_comments 包含 1,117评论,记录时间从 2007 年到 2020 年(最后更新于 2024-08-22)。

    这些评论来自众议院辩论和参议院辩论。我们同时记录了评论及其主要帖子。

    例如,debate_2014-02-26.92.10.html 来自 2014-02-26 的众议院辩论,senate_2020-09-02.187.1.html 来自 2020-09-02 的参议院辩论。

  • senate_debates 包含 78,915参议院辩论,记录时间从 2006 年到 2024 年(最后更新于 2024-08-22)。

    每个文件的命名约定为 [date].[id].html。例如,2011-10-12.47.1.html 来自 2011-10-12 的参议院辩论,其 ID 47.1 用于标识其 URL。

  • house_debates 包含 116,480众议院辩论,记录时间从 2006 年到 2024 年(最后更新于 2024-08-22)。

    每个文件的命名约定为 [date].[id].html。例如,2012-03-21.143.1.html 来自 2012-03-21 的众议院辩论,其 ID 143.1 用于标识其 URL。

注意,每个 .html 文件的第一行包含其原始 URL 到 OpenAustralia,例如,<!--https://www.openaustralia.org.au/debate/?id=2017-03-29.89.1-->

下载

为了从 OpenAustralia 下载资源,我们在 utils 下开发了 Python 脚本,以便您了解我们如何构建 URL,并且您可以修改每个辩论数据库的搜索时间范围。

许可证

本仓库根据 MIT 许可证授权。

搜集汇总
数据集介绍
main_image_url
构建方式
OpenAustralia数据集的构建基于对澳大利亚议会辩论记录的系统性收集与整理。该数据集从OpenAustralia.org网站上抓取了大量的议会辩论内容,涵盖了从2006年至2024年的众议院和参议院的辩论记录。具体而言,数据集包括了1,117条近期评论、78,915条参议院辩论和116,480条众议院辩论。每条记录均以HTML文件形式存储,文件名遵循'[日期].[ID].html'的命名规范,并在文件首行标注了原始URL,确保数据的来源透明性和可追溯性。
特点
OpenAustralia数据集的显著特点在于其全面性和时效性。该数据集不仅覆盖了长达18年的议会辩论记录,还包含了详细的评论和辩论内容,为研究澳大利亚民主进程提供了丰富的素材。此外,数据集的结构化设计使得用户可以轻松地按日期和辩论类型进行检索,极大地提高了数据的可访问性和利用效率。
使用方法
使用OpenAustralia数据集时,用户可以通过提供的Python脚本进行数据的抓取和处理。脚本位于`utils`目录下,定义了一个名为`OpenAustralia`的类,用户可以通过设定起始日期、结束日期、数据类型和保存路径来定制抓取任务。例如,用户可以指定从2021年1月23日至2023年3月21日的众议院辩论数据,并将其保存至指定目录。这种灵活的使用方式使得数据集能够适应多种研究和分析需求。
背景与挑战
背景概述
OpenAustralia数据集是由一个独立且非党派的网站OpenAustralia.org创建的,旨在提升澳大利亚民主的透明度和可访问性。该数据集的核心研究问题是如何通过数字化手段,使公众能够更便捷地获取和理解澳大利亚议会的辩论记录。自2006年以来,该数据集已收录了超过19万条议会辩论记录,涵盖了众议院和参议院的讨论内容。这些数据不仅为学术研究提供了丰富的素材,也为公众参与政治决策提供了重要的信息支持。
当前挑战
OpenAustralia数据集在构建过程中面临了多个挑战。首先,数据收集的复杂性在于需要从多个来源实时抓取和整合议会辩论记录,确保数据的完整性和准确性。其次,数据格式的多样性和不一致性增加了数据处理的难度,需要开发专门的工具和算法来标准化数据。此外,数据集的更新频率高,要求持续的技术支持和维护,以应对议会辩论内容的实时变化。这些挑战不仅影响了数据集的质量,也对后续的数据分析和应用提出了更高的要求。
常用场景
经典使用场景
在澳大利亚民主研究领域,OpenAustralia数据集的经典使用场景主要集中在政治话语分析和议会透明度提升。研究者通过分析议会辩论文本,可以深入探讨议员们的立场、政策倾向以及辩论策略,从而为政策制定和公众舆论引导提供有力支持。此外,该数据集还常用于情感分析和主题建模,以揭示议会辩论中的情感动态和主要议题,进一步增强公众对政治过程的理解和参与。
解决学术问题
OpenAustralia数据集在学术研究中解决了多个关键问题,特别是在政治科学和公共政策领域。首先,它为研究者提供了丰富的议会辩论文本,使得深入分析政治话语、议员行为和政策辩论成为可能。其次,通过这些数据,学者们可以探讨议会透明度和民主参与度的问题,评估不同政策对公众舆论的影响。此外,该数据集还为跨学科研究提供了基础,如结合自然语言处理技术,进行情感分析和主题挖掘,从而推动政治话语研究的边界。
衍生相关工作
基于OpenAustralia数据集,衍生了一系列经典工作,涵盖了政治话语分析、议会透明度研究和公民参与技术等多个领域。例如,有研究利用该数据集进行议员话语网络分析,揭示议会内部的联盟和对抗关系。此外,还有工作专注于开发自动化工具,用于实时监测和分析议会辩论,提升政府透明度和公众参与度。这些衍生工作不仅丰富了政治科学的研究方法,也为实际政策制定和公众教育提供了有力支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作