osaa-metrics

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/spencerlima/osaa-metrics

下载链接

链接失效反馈

官方服务：

资源简介：

OSAA Metrics 是一个包含世界银行和 UNESCO 国家年度发展指标的整洁数据集，采用“一大表”形式，并配有一个包含 BGE-M3 语义嵌入的每指标元数据表，支持自然语言指标搜索。数据集由联合国非洲特别顾问办公室（OSAA）的 Mirian Lima 构建和维护，包含两个主要文件：master.parquet 和 meta.parquet。master.parquet 采用长格式，每行代表一个指标、国家和年份的组合，包含约 960 万行数据，涵盖 6,055 个指标、215 个国家和 1970 年至 2025 年的时间范围。meta.parquet 则包含每个指标的元数据和语义嵌入，用于指标发现和语义搜索。数据集适用于表格分类、表格回归和特征提取等任务，特别适合经济学、发展和可持续发展目标（SDG）相关的研究。数据可通过 DuckDB、Python 包 osaa-metrics 或 Hugging Face 的 datasets 库访问。数据集采用 CC-BY-4.0 许可，允许商业使用，但需注明来源。

创建时间：

2026-05-05

搜集汇总

数据集介绍

构建方式

OSAA Metrics数据集由联合国非洲问题特别顾问办公室（OSAA）构建，系统整合了世界银行与联合国教科文组织统计研究所（UIS）的国别-年份发展指标数据。数据集以长格式存储，每一行对应一个指标、国家和年份的组合，总计包含超过6000项指标、215个国家和地区、时间跨度从1970年至2025年的约960万条观测记录。数据通过DuckDB的httpfs扩展直接读取Parquet格式文件，无需认证即可访问。配套的Python包提供了MCP服务器、命令行工具和交互式笔记本等多重访问接口，便于用户进行数据查询与分析。

特点

该数据集最具特色的设计在于其双表结构：master表存储完整的指标数值，而meta表则为每个指标配备了基于BGE-M3模型的1024维语义嵌入向量，支持自然语言驱动的指标语义搜索。此外，meta表还提供了指标覆盖率统计（全球及五大洲）、时间序列变化趋势、复合年增长率等丰富的元数据信息，并包含最不发达国家、内陆发展中国家和小岛屿发展中国家等分类标识，为非洲及相关区域的发展研究提供了精细化的数据支撑。

使用方法

用户可通过多种方式使用该数据集。在DuckDB中，直接使用read_parquet函数读取Hugging Face上的Parquet文件即可完成数据加载。Python用户可通过datasets库的load_dataset方法获取数据，或直接使用Polars等库读取远程文件。高级用法包括利用meta表中的嵌入向量进行语义搜索，通过sentence-transformers模型将自然语言查询编码后与预计算向量进行相似度匹配，快速定位相关指标。配套的osaa-metrics Python包还提供了MCP服务器，可集成至Claude Desktop等AI工具中使用。

背景与挑战

背景概述

OSAA Metrics数据集由联合国非洲问题特别顾问办公室（OSAA）的研究人员Mirian Lima于2026年创建，旨在整合世界银行和联合国教科文组织统计研究所（UIS）的跨国发展指标，构建一个统一、可计算的分析基础。该数据集涵盖1970年至2025年间215个国家的6055项指标，共计约960万条观测记录，并创新性地引入BGE-M3语义嵌入技术，支持通过自然语言进行指标检索。作为服务于非洲及全球可持续发展目标（SDG）研究的关键基础设施，OSAA Metrics显著降低了经济与贸易指标融合分析的门槛，在宏观经济学、发展经济学及联合国政策评估领域具有广泛影响力。

当前挑战

OSAA Metrics面临的核心挑战在于多源异质数据的系统性整合与复杂缺失模式的规避。从领域问题看，传统宏观指标分散于世界银行WDI、UNESCO SDG等异构数据库，其数据粒度、编码体系与覆盖范围差异极大，导致跨数据源的综合分析长期受困于“数据孤岛”效应。在构建过程中，团队需应对指标定义随年份演变的版本兼容问题、不同统计口径下的数值归一化难题，以及因国家分类变更（如南苏丹独立）引发的序列断裂。此外，缺失数据并非随机缺失，而是与低收入国家统计能力薄弱、冲突地区数据采集中断等结构性因素相关，这为后续的插补与因果推断增加了复杂性。

常用场景

经典使用场景

在全球发展经济学与统计学的交汇领域，OSAA Metrics 数据集以“一张大表（One Big Table）”的优雅范式，汇集了来自世界银行与联合国教科文组织统计研究所逾六千年份-国家-指标观测值，覆盖215个国家和地区、1970年至2025年的漫长时序。其经典使用场景在于作为跨国面板数据的统一入口，研究者可无缝调入国民账户、教育投入、可持续发展目标进展等多元维度，通过简洁的SQL或Python查询完成从数据清洗到回归分析的完整链路，免去多源爬取与碎片化合并的繁琐劳作。

衍生相关工作

围绕该数据集，生态中已衍生出若干富有影响力的工作。核心产品当属同名的`osaa-metrics`Python包，它将数据集封装为MCP服务器与命令行工具，使Claude Desktop等大语言模型客户端可直接调用指标查询功能，开创了“语言模型驱动经济指标分析”的范式。进一步的语义搜索模块将BERT与BGE-M3嵌入模型引入指标发现流程，加速了变量选择与假说生成。此外，该项目在HuggingFace上的开放发布，为后续建立跨知识库的指标对齐、缺失值插补与因果推断基准测试平台奠定了基础。

数据集最近研究