Open Government Data Corpus (OGDC)

Name: Open Government Data Corpus (OGDC)
Creator: IBM研究院
Published: 2023-08-25 02:33:36
License: 暂无描述

arXiv2023-08-25 更新2024-07-17 收录

下载链接：

https://doi.org/10.5281/zenodo.7908079

下载链接

链接失效反馈

官方服务：

资源简介：

Open Government Data Corpus (OGDC) 是由IBM研究院创建的一个用于表格搜索的大规模数据集。该数据集利用政府门户网站的开放数据，通过元数据关联，为大规模数据表格搜索提供了首个基准。数据集内容包括来自多个政府门户的数据表格，这些表格在规模和格式上与显示在维基百科页面或arXiv论文上的表格有显著差异。创建过程中，通过CKAN API下载并处理了CSV和Excel文件，去除了重复数据，确保了数据集的质量。OGDC的应用领域主要集中在信息检索和数据湖中的数据发现，旨在解决在大量无结构数据中定位有用数据的问题。

Open Government Data Corpus (OGDC) is a large-scale table search dataset developed by IBM Research. It leverages open data from multiple government portals, and through metadata association, it provides the first benchmark for large-scale tabular data search. The dataset comprises data tables sourced from various government portals, which differ significantly in scale and format from those displayed on Wikipedia pages or arXiv papers. During its development, CSV and Excel files were downloaded and processed via the CKAN API, with duplicate data removed to ensure the dataset's quality. The main application domains of OGDC focus on information retrieval and data discovery in data lakes, aiming to address the challenge of locating valuable data from massive unstructured data.

提供机构：

IBM研究院

创建时间：

2023-08-25

搜集汇总

数据集介绍

构建方式

在数据湖与开放政府数据融合的背景下，Open Government Data Corpus（OGDC）的构建依托于CKAN（综合知识归档网络）平台，系统采集了来自七个英语国家政府门户的结构化数据。研究团队通过API下载原始数据集，并运用pandas库从CSV与Excel文件中提取表格元数据，包括表名、描述、列标题及五行样本数据。为确保数据质量，构建流程实施了严格的许可过滤，仅保留开放许可的数据，并采用保守去重策略，仅当表格在名称、描述、标签、列标题及样本数据完全一致时才视作重复予以剔除。最终，利用组织、数据集与标签三类元数据自动构建了表格搜索的基准真值，形成了覆盖大规模真实数据表的语料库。

使用方法

OGDC为信息检索领域的研究者提供了评估表格搜索系统的标准化基准。在关键词搜索任务中，用户可利用数据集中自动生成的单关键词、双关键词及三关键词查询，测试系统在表格语义匹配上的性能。相关表格搜索任务则允许以特定表格为查询，根据组织、数据集或标签相似性检索关联表格，评估系统在不同关联性定义下的表现。研究实践中，可集成传统方法如BM25或神经检索模型如Siamese架构，通过NDCG@20等指标量化性能。该语料库支持跨站点训练与测试，例如以加拿大数据为测试集，其余站点为训练集，以促进模型泛化能力的研究与比较。

背景与挑战

背景概述

随着数据湖架构的兴起，海量结构化数据的管理与检索成为信息检索领域的关键挑战。在此背景下，IBM研究院的Michael Glass等人于2023年推出了Open Government Data Corpus（OGDC），旨在为数据表搜索任务构建首个大规模基准数据集。该数据集依托全球七个英语国家政府开放数据门户，通过CKAN平台采集了涵盖数十万数据表的丰富资源，其核心研究聚焦于语义层面的关键词搜索与关联表检索，为数据发现与集成提供了重要的评估基础，推动了数据湖智能检索技术的发展。

当前挑战

OGDC致力于解决数据湖环境中结构化数据表的语义检索问题，其挑战在于如何从规模庞大、模式异构的数据表中精准定位用户所需信息。构建过程中的挑战包括：数据表去重时需平衡相似性保留与冗余消除，以避免检索结果中出现大量重复项；基于元数据自动构建基准时，需设计合理的关联性度量标准，如通过组织、数据集或标签重叠来定义表间语义关系；同时，数据表格式多样且规模远超传统显示表格，对检索系统的可扩展性与鲁棒性提出了更高要求。

常用场景

经典使用场景

在数据湖环境中，表格搜索技术面临大规模非结构化数据的挑战。Open Government Data Corpus (OGDC) 作为首个基于政府开放数据构建的表格搜索基准数据集，其经典使用场景聚焦于评估语义表格检索系统的性能。该数据集通过自动生成的元数据标签，为关键词搜索和关联表格搜索提供了标准化测试框架，使得研究人员能够系统性地比较传统信息检索方法与神经检索模型在真实数据表格上的表现差异。

解决学术问题

OGDC 数据集有效解决了表格搜索领域长期存在的学术研究问题。传统基准数据集多依赖于显示表格，其规模与样式与真实数据表格存在显著差异，导致评估结果缺乏代表性。OGDC 通过整合多国政府开放数据，构建了大规模、结构多样的数据表格集合，为研究表格语义相似性、跨组织数据关联性以及多关键词复合查询等核心问题提供了可靠实验平台。该数据集推动了数据湖环境下表格检索理论的发展，并为评估检索模型在复杂元数据场景中的鲁棒性奠定了基础。

实际应用

在实际应用层面，OGDC 数据集为政府数据开放平台和企业数据管理系统的智能检索功能提供了重要参考。基于该数据集训练的表格搜索模型能够帮助用户快速定位跨部门政府数据资源，例如在公共卫生、环境监测或经济统计等领域实现高效数据发现。同时，该数据集支持的数据关联性分析技术可应用于商业智能系统，辅助企业从异构数据源中自动识别具有潜在价值的数据表格，提升数据湖的数据利用率与决策支持能力。

数据集最近研究