unboxgov-khmdhs
收藏Hugging Face2026-05-31 更新2026-06-01 收录
下载链接:
https://huggingface.co/datasets/vasilisplavos/unboxgov-khmdhs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个结构化的希腊公共采购数据集,源自KHMDHS开放数据API,并通过unboxgov处理流程增强了异常检测标志。它包含四个核心Parquet格式表格:合同(contracts)、合同项(contract_items)、异常标志(flags)和组织机构(orgs),这些表格提供了累计的结构化信息。此外,数据集按月分区存储了完整的原始合同JSON负载,并生成了希腊语的月度摘要报告。数据集主要用于支持对希腊公共采购数据的分析、异常检测(如潜在的异常模式识别)以及开放政府数据研究。需要特别注意的是,数据集中的异常标志仅为提示性模式,需经人工审查原始合同以进行验证,并非对不当行为的最终判定。
This dataset is a structured dataset on Greek public procurement, sourced from the KHMDHS open data API and enhanced with anomaly detection flags via the unboxgov processing pipeline. It includes four core Parquet tables: contracts, contract_items, flags, and orgs, which provide cumulative structured information. Additionally, the dataset stores complete raw contract JSON payloads partitioned by month and generates monthly summary reports in Greek. The dataset is primarily used to support analysis of Greek public procurement data, anomaly detection (such as identifying potential abnormal patterns), and open government data research. It is important to note that the anomaly flags in the dataset are only indicative patterns and require manual review of original contracts for verification, not final determinations of misconduct.
创建时间:
2026-05-31
原始信息汇总
数据集概述
名称:unboxgov — KHMDHS contracts
许可证:Creative Commons Attribution 4.0 International (CC-BY-4.0)
语言:希腊语 (el)
标签:希腊公共采购、开放政府数据
数据集内容
该数据集包含来自KHMDHS开放数据API的结构化希腊公共采购合同,以及通过unboxgov流程标记的异常检测标志。数据分为四个配置(config):
- contracts:合同主表,文件为
metadata/contracts.parquet - contract_items:合同项目明细表,文件为
metadata/contract_items.parquet - flags:异常检测标志表,文件为
metadata/flags.parquet - orgs:组织信息表,文件为
metadata/orgs.parquet
此外,还包括:
metadata/raw/<YYYY_MM>.parquet:按月份分区的原始合同完整数据reports/<YYYY_MM>/:生成的希腊语摘要报告
重要声明
数据集中的标志(flags)仅作为值得审查的提示,并非不当行为的认定。每个标志表示一种模式,需要人工审查相关合同以进行验证。
搜集汇总
数据集介绍

构建方式
该数据集源于对希腊公共采购领域KHMDHS开放数据API的系统性抓取与结构化处理。通过整合原始合同数据,构建了涵盖合同基本信息、合同细项、组织实体及异常检测标记的四类核心表格,分别存储于contracts、contract_items、orgs和flags配置中。原始数据以月为分区保存为Parquet文件,确保数据完整性与可追溯性。unboxgov管道进一步对合同进行异常模式识别,生成标记性信息,形成结构化与标注化并存的数据资源。
使用方法
使用者可通过Hugging Face Datasets库直接加载不同配置的子集,如contracts或flags,以展开针对性分析。Parquet文件支持高效的条件过滤与聚合运算,适用于大规模数据处理场景。异常检测标记可作为监督或半监督学习的弱监督信号,但需注意其仅提供潜在模式而非确定性结论。研究过程中,推荐结合raw分区数据与flags标记,进行人工验证以确保结论的可靠性。
背景与挑战
背景概述
在公共采购领域,透明性与问责制是遏制腐败、提升治理效能的核心要素。希腊自经济危机后大力推行政府采购数据开放,但分散、异构的数据格式仍阻碍着大规模分析与审计。为回应这一需求,unboxgov项目团队基于希腊KHMDHS开放数据接口,构建了结构化的公共采购合同数据集unboxgov-khmdhs。该数据集涵盖合同、合同明细、组织信息及异常检测标记四大模块,首次将零散的希腊政府采购记录整合为统一、可复用的结构化资源。通过标准化格式与月度原始抓取记录,研究者可回溯合同全貌,而配套的异常检测标记则为进一步的合规分析提供了线索。该数据集的发布,显著降低了希腊公共采购领域数据获取与处理的门槛,有力推动了跨国比较研究与算法审计工具的研发。
当前挑战
该数据集所应对的领域挑战源于公共采购数据的高复杂性与低价值密度——原始数据格式多样、字段缺失频繁、主体关系模糊,传统手工审计效率低下,难以系统性识别异常模式。unboxgov团队在构建过程中面对多重技术难题:首先,需从KHMDHS API持续抓取增量数据,并设计容错机制应对接口波动与数据不一致;其次,将非结构化的希腊语合同文本转化为可计算的表格结构,涉及大量正则规则与实体对齐工作;最后,异常标记算法需在低基准率情境下保持低误报率,避免淹没审查人员。数据集的动态更新机制与版本控制也需兼顾时效性与可复现性,为长期稳健的开放政府数据研究奠定基础。
常用场景
经典使用场景
在政府透明度与公共 procurement 研究领域,unboxgov-khmdhs 数据集以其结构化的希腊公共采购合同数据,为研究者提供了深入探索政府采购行为的独特窗口。该数据集不仅整合了来自 KHMDHS OpenData API 的元数据,还引入了异常检测标志,使其成为分析公共支出模式、评估招标流程效率及揭示潜在利益冲突的理想资源。经典使用场景包括利用合同与组织信息构建监管网络图谱,或通过时间序列数据追踪采购趋势,从而为公共治理研究奠定坚实的数据基础。
解决学术问题
该数据集有效解决了公共 procurement 研究中长期存在的数据碎片化与透明度不足难题。通过提供标准化的合同项、组织实体及异常标志表格,它使学术界能够系统性地验证关于采购腐败、竞争扭曲以及行政效率的理论假设。其异常检测标志虽需人工复核,却为识别高风险交易模式提供了量化起点,显著推动了循证治理研究的发展,尤其在评估法律法规对采购行为的影响方面具有深远意义。
实际应用
在实际应用中,unboxgov-khmdhs 数据集成为政府监督机构、反腐败组织及媒体调查的利器。它可辅助开发自动化预警系统,实时监控合同分配中的异常波动,如单一投标商频繁中标或价格偏离市场基准等情况。此外,数据集中按月份分区的原始载荷与希腊语摘要报告,支持非专业人员快速理解采购全貌,从而促进社会监督与公众问责,最终助力提升公共资源分配的公信力。
数据集最近研究
最新研究方向
该数据集聚焦于希腊公共采购合同的开放政府数据与异常检测,近期研究前沿集中于利用结构化合同数据(如合同实体、项目明细及组织信息)结合基于规则的旗帜(flags)系统,构建透明化政府采购的异常行为识别框架。研究者正探索将自然语言处理技术与图神经网络结合,对合同文本中隐藏的关联交易、垄断趋势及价格异常进行深度挖掘,其中月度原始数据的分区存储模式为时间序列异常检测提供了细粒度支撑。这一方向与全球反腐、公共财政问责及‘开放政府伙伴关系’运动相呼应,尤其在欧洲数据治理强化背景下,有望推动希腊等南欧国家公共采购改革的实证评估,为政策制定者提供可解释的预警信号,同时避免对旗帜结果的过度解读,强调人工核查的必要性。
以上内容由遇见数据集搜集并总结生成



