five

glossAPI/opengov-deliberations-v2

收藏
Hugging Face2026-04-30 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/glossAPI/opengov-deliberations-v2
下载链接
链接失效反馈
官方服务:
资源简介:
OpenGov Greek Public Deliberations v2数据集是希腊政府电子咨询平台OpenGov.gr的结构化快照,记录了2009年至2026年间希腊政府部门发布的立法草案和政策倡议的公共咨询数据。数据集包含1,168个咨询、30,505个立法条款、348,380条公民评论和2,286份支持文档。数据集采用规范化的嵌套模式(咨询→条款→评论),清理了冗余字段,解析了日期字符串为时间戳,并将原始HTML文章体转换为纯文本。数据集的层次结构保留了实际咨询的文档层次,适合进行咨询级别的分析和细粒度的NLP研究。

The OpenGov Greek Public Deliberations v2 dataset is a structured snapshot of the Greek governments public e-consultation platform OpenGov.gr, containing public consultation data on draft legislation and policy initiatives published by Greek ministries from 2009 to 2026. The dataset includes 1,168 consultations, 30,505 legislative articles, 348,380 citizen comments, and 2,286 supporting documents. The v2 version introduces a normalized nested schema (consultation → articles → comments), drops redundant fields, parses date strings to timestamps, and replaces raw HTML article bodies with cleaned plain text. The datasets hierarchical structure preserves the document hierarchy of actual consultations, making it suitable for both consultation-level analysis and fine-grained NLP research.
提供机构:
glossAPI
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自希腊政府官方公众电子咨询平台OpenGov.gr的系统性结构化快照,是第二迭代版本(v2)。相较于初版,v2引入了规范化的嵌套模式(咨询→条款→评论),剔除了大量冗余字段,将原始HTML条款正文转为清洗后的纯文本,并统一将日期字符串解析为原生时间戳。数据通过爬取采集,覆盖2009年至2026年间由36个希腊部委发布的共计1,168项咨询,囊括30,505条立法条款、348,380条公民评论及2,286份配套文件。数据集严格保留了咨询的文档层级结构,每条咨询对应单一法案或政策提案,包含有序条款及对应评论,同时附有影响评估、分析报告等支撑文件,为多粒度分析提供了结构化基础。
特点
该数据集的核心特色在于其完整保留了希腊公共协商的原始层级与时间跨度。数据涵盖长达17年的协商活动,从2009年首条记录延伸至2026年,横跨36个部委,体现了政府立法与公共参与的动态变迁。其嵌套结构将咨询、条款与评论自然关联,便于在细粒度层面开展自然语言处理研究,如论点挖掘、立场检测及立法文本摘要。此外,数据集提供了超8,200万词的希腊语语料,基于希腊语BERT分词器计算得到约1.11亿词元,特别聚焦法律与政策领域的语言特征,为构建领域专用词库与语言模型提供了高价值资源。所有文本均采用Unicode标准化处理,评论内容保持用户原始提交形式,确保了语料的真实性与科研适用性。
使用方法
该数据集适用于多种现代希腊语自然语言处理任务,尤其在法律与立法语域中表现突出。研究者可将其用于论辩挖掘、意见分析与立场检测,探索公民参与行为与政策草案间的互动模式。同时,数据集的文档层级结构支持对立法文本进行摘要、检索与问答系统开发,亦可用于构建希腊语法律领域的语言模型或领域适应的嵌入表示。使用时需注意时间戳为雅典本地时间,读取时建议使用pandas的tz_localize方法将其本地化为Europe/Athens时区。文本字段如条款正文通过HTML剥离获得,若需保留原始格式应参照源URL。数据集以CC BY 4.0许可发布,引用时需注明来源于OpenGov.gr平台及glossAPI团队。
背景与挑战
背景概述
OpenGov Greek Public Deliberations v2 是一个结构化的大规模现代希腊语公共协商数据集,由 glossAPI 团队(隶属于希腊自由/开源软件协会 EELLAK)于 2026 年构建,旨在系统记录希腊政府官方电子协商平台 OpenGov.gr 上自 2009 年至 2026 年间的立法公众讨论活动。该数据集以“协商—条款—评论”三级嵌套模式,完整保留了 1,168 项协商、逾 30,505 条立法条款及近 35 万条公民评论的层次化文本,涵盖 36 个希腊部委发布的草案法律与政策倡议。作为该领域的第二代迭代版本,v2 通过清洗与规范化处理,为希腊语自然语言处理、法律文本分析与公民参与社会计算研究提供了高质量、可复用的资源。
当前挑战
该数据集构建所面对的挑战首先源于希腊公共协商平台的异构性与非标准化结构。原始网页 HTML 格式混杂,需从每个原始文章页面中剥离并标准化纯文本,同时保留文档逻辑层级,这要求精确的解析策略以避免信息丢失。其次,时间戳数据以欧洲/雅典本地时区存储且不包含时区标记,在跨时区分析或与外部时间序列对齐时易引发歧义,必须在读取时谨慎本地化处理。此外,数据集需处理长达 17 年的协商记录,覆盖从 2009 年到 2026 年的广泛时段,其中部分历史页面格式可能已变更或存在损坏,给爬取与数据一致性维护带来额外困难。
常用场景
经典使用场景
OpenGov Greek Public Deliberations v2数据集汇聚了希腊政府官方电子咨询平台自2009年至2026年间逾千项立法草案与政策倡议的公众讨论记录,涵盖36个部委、3万余条法律条款及近35万条公民评论。其经典使用场景聚焦于自然语言处理领域中的法律与政策文本分析,研究者可借助该数据集针对现代希腊语的立法文本进行语义解析、篇章结构探索与主题建模,亦可在细粒度评论数据上开展论辩挖掘与立场检测,从而揭示公众对不同政策议题的态度倾向与论证模式。
衍生相关工作
围绕OpenGov Greek Public Deliberations v2数据集,已衍生出多个具有示范效应的经典研究路径。在自然语言处理方面,该数据推动了面向希腊法律文本的命名实体识别与法律逻辑推理评测基准的构建;在计算社会科学领域,基于其评论结构与时间信息开发的参与度预测模型与政策议程演化分析框架,为理解数字民主中的意见聚合机制提供了方法论范例。此外,该数据集还启发了跨语言的公众咨询语料库对比研究,促进了多语言立法语言模型的对齐训练,成为连接法律NLP与公民参与研究的桥梁性资源。
数据集最近研究
最新研究方向
该数据集聚焦于希腊政府公共电子协商平台的结构化语料构建,为现代希腊语法律文本分析与公民参与研究提供了大规模、细粒度的多层级对话数据。前沿研究方向涵盖立法文本摘要与检索增强生成、基于论据挖掘的公众意见分析与立场检测、以及跨部委协商活动的计量比较。其跨越十七年、覆盖三十六个部委的丰富语料,为追踪法律草案从发布到公众反馈的全流程演化、构建领域适应的希腊语语言模型、以及探索数字时代公民参与与政策制定互动机制提供了重要基础资源,对推动希腊语自然语言处理、计算社会科学及电子政务研究具有显著价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作