au-parliament-poc-turns-2026-03-30

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/stcoats/au-parliament-poc-turns-2026-03-30

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含议会会议中的发言记录，涵盖了丰富的元数据和内容信息。数据集结构包括发言标识（turn_id）、会议日期（session_date）、议会机构（chamber）、视频ID（video_id）、时间信息（start, end, duration）、发言人信息（speaker, constituency, ministerial_title, party, gender, dob, education）、文本内容（text）、音频数据（采样率16kHz）、地理位置（latitude, longitude）以及社会经济指标（population, median_weekly_income）。数据集共包含531个训练样本，总大小约1.15GB。适用于语音识别、政治学分析、社会经济研究等多领域任务。

创建时间：

2026-04-10

原始信息汇总

数据集概述

基本信息

数据集名称: au-parliament-poc-turns-2026-03-30
发布者: stcoats
数据来源: 澳大利亚议会
数据格式: 结构化数据（表格形式）
数据总量: 1147735532 字节（约 1.15 GB）
下载大小: 1144738918 字节（约 1.14 GB）
示例数量: 531 条
数据分割: 仅包含训练集（train）

数据特征

数据集包含以下字段：

发言与会议信息

turn_id: 发言轮次标识符
session_date: 会议日期
chamber: 议会厅（如上议院、下议院）
video_id: 视频标识符
start: 发言开始时间（秒）
end: 发言结束时间（秒）
duration: 发言持续时间（秒）
text: 发言文本内容
n_segments: 音频分段数量

发言者信息

speaker: 发言者姓名
constituency: 所属选区
ministerial_title: 部长头衔
party: 所属政党
gender: 性别
dob: 出生日期
education: 教育背景

选区社会经济信息

population: 选区人口
median_weekly_income: 选区中位周收入
latitude: 选区纬度
longitude: 选区经度

多媒体数据

audio: 音频数据（采样率：16000 Hz）

数据结构

数据文件: 训练集数据文件路径为 data/train-*
配置名称: default

搜集汇总

数据集介绍

构建方式

在政治话语分析领域，au-parliament-poc-turns-2026-03-30数据集通过系统化采集澳大利亚议会辩论的公开记录构建而成。其核心来源是议会会议的视频与文字转录，技术团队利用自动语音识别与时间戳对齐技术，从原始音视频流中精确提取每位发言者的讲话片段，并整合为结构化的轮次数据。每个数据点不仅包含发言文本与对应音频，还通过关联公开的议员档案信息，补充了选区、政党、职务以及人口统计学属性，从而形成多模态、多维度的话语记录。

使用方法

研究人员可利用该数据集开展跨学科探索，尤其在计算社会科学与政治语言学领域。通过加载数据集，用户可直接访问训练分割中的531个样本，每个样本包含完整的轮次信息与音频文件。典型应用包括训练或评估语音识别模型、分析政治修辞风格、研究议员发言模式与选区特征的关联，或进行多模态情感与立场分析。音频与文本的同步特性支持端到端的语音处理流程，而丰富的元数据使得基于政党、性别、地区等维度的子集分析与对比研究成为可能。

背景与挑战

背景概述

在政治科学与计算语言学的交叉领域，对立法机构话语的系统性分析长期以来是理解民主进程与政策制定的关键。澳大利亚议会辩论数据集（au-parliament-poc-turns-2026-03-30）由研究机构于2026年创建，旨在通过结构化记录议会发言轮次，深入探究政治话语的时空动态、党派立场与议员背景的关联。该数据集整合了音频、文本及丰富的元数据，如选区社会经济指标与个人履历，为量化政治沟通模式、意识形态检测及代表行为研究提供了前所未有的多模态资源。其出现推动了政治计算领域从静态文本分析向动态、语境化理解的范式转变，显著增强了跨学科研究的实证基础。

当前挑战

该数据集核心致力于解决政治话语自动解析与情境化建模的挑战，包括从连续辩论流中精准分割发言轮次、关联多源异构信息（如音频与地理数据），以及克服政治语言中隐含立场、修辞策略与语境依赖所带来的语义歧义。在构建过程中，研究者需应对音频与文本对齐的技术复杂性，确保时间戳的精确性；同时，整合来自公开记录与统计机构的多维度元数据时，面临数据一致性、隐私合规与跨格式标准化等工程难题。这些挑战共同要求兼顾计算方法的鲁棒性与政治语境的细微解读。

常用场景

经典使用场景

在政治学与计算社会科学领域，au-parliament-poc-turns-2026-03-30数据集为研究者提供了澳大利亚议会辩论的精细记录。该数据集整合了音频、文本及议员背景信息，使得学者能够深入分析政治话语的动态模式。经典使用场景包括对议会发言的时序分析，探讨不同政党、性别或选区代表在辩论中的参与度与互动策略，从而揭示立法过程中的权力结构与话语权分布。

解决学术问题

该数据集有效解决了政治沟通研究中数据稀缺与结构单一的问题。通过提供带时间戳的音频与文本对齐数据，它支持对发言风格、情感倾向及修辞策略的量化分析。此外，丰富的元数据如议员党派、选区社会经济指标等，使得研究者能够检验代表性与民主问责的理论假设，推动政治行为学与语料库语言学的交叉研究。

实际应用

在实际应用中，该数据集为政策分析、媒体监测与公民参与工具的开发提供了基础。政府部门可利用其追踪政策辩论的演变，评估立法效率；新闻机构则能基于发言数据生成自动摘要，提升公共事务报道的透明度。同时，它也为教育机构开发公民素养课程提供了真实语料，促进公众对民主程序的理解。

数据集最近研究