ModelTables

github2025-12-19 更新2025-12-20 收录

下载链接：

https://github.com/RJMillerLab/ModelTables

下载链接

链接失效反馈

官方服务：

资源简介：

我们提出了ModelTables，一个模型湖中表格的基准数据集，捕捉了性能和配置表格的结构化语义，这些语义通常被仅基于文本的检索所忽视。该语料库构建自Hugging Face模型卡片、GitHub READMEs和引用的论文，将每个表格与其周围的模型和出版上下文链接起来。与开放数据湖表格相比，模型表格较小但表现出更密集的表格间关系，反映了紧密耦合的模型和基准演化。当前版本覆盖了超过60K模型和90K表格。

We present ModelTables, a benchmark dataset for tables within model lakes. This resource captures the structured semantics of performance and configuration tables—semantics frequently overlooked by text-only retrieval methods. Constructed from Hugging Face model cards, GitHub READMEs, and cited scholarly papers, the corpus links each table to its associated surrounding model and publication context. Compared to tables sourced from open data lakes, ModelTables are smaller in scale but exhibit denser inter-table relationships, reflecting the tightly coupled evolution of models and benchmarks. The current version of the dataset covers over 60,000 models and 90,000 tables.

创建时间：

2025-12-18

原始信息汇总

ModelTables 数据集概述

数据集简介

ModelTables 是一个关于模型的表格语料库，旨在捕获模型性能与配置表格的结构化语义。该语料库构建自 Hugging Face 模型卡片、GitHub README 文件以及引用的学术论文，将每个表格与其周围的模型和出版物上下文相关联。

数据集规模与内容

覆盖范围：当前版本涵盖超过 60,000 个模型和 90,000 个表格。
数据来源：表格提取自 Hugging Face 模型卡片、GitHub README 文件和学术论文 HTML。
核心特点：与开放数据湖表格相比，模型表格规模较小，但表现出更密集的表格间关系，反映了紧密耦合的模型和基准测试演进。

数据组织与结构

主要数据目录

data/processed/deduped_github_csvs/：从 GitHub README 提取的表格。
data/processed/deduped_hugging_csvs/：从 Hugging Face 模型卡片提取的表格。
data/processed/tables_output/：直接从 ArXiv HTML 源解析的表格。
data/processed/llm_tables/：从 Semantic Scholar 数据集提取并经 GPT 重新格式化的表格。

基准真值文件

data/gt/：存储不同层级（论文、模型、数据集）的基准真值。
存储格式：使用二进制矩阵和对应的 CSV 文件名列表来表示表格间的关联性，而非传统的列表格式。

数据获取方式

完整数据集

访问地址：https://drive.google.com/drive/folders/1YLfkknrFuE9pWFJuarb4kyX1o5NtN-Y8?usp=sharing
内容：包含所有已处理表格、基准真值文件和中间结果的完整数据集。

更新表格

访问地址：https://drive.google.com/drive/folders/1h3gG8iRFgNZQV2K8z_ZdaZv3MUEJocRY?usp=sharing
内容：包含已处理表格的更新版本。

基准真值构建

使用三种互补信号构建多源基准真值以评估模型和表格关联性：

论文引用链接
显式的模型卡片链接和继承关系
共享的训练数据集

评估与应用

主要应用场景

表格搜索：作为评估表格搜索方法的基准。
评估结果：
- 基于联合的语义表格检索总体 P@1 为 54.8%。
- 基于表格的密集检索达到 66.5% P@1。
- 元数据混合检索达到 54.1% P@1。

相关资源

依赖项目与数据

语义表格发现框架：https://github.com/megagonlabs/starmie
表格联合搜索基准：https://github.com/RJMillerLab/table-union-search-benchmark/tree/master
SANTOS 数据集：https://github.com/northeastern-datalab/santos/tree/main/groundtruth
统一表格发现系统：https://github.com/LUH-DBS/Blend
信息检索工具包：https://github.com/castorini/pyserini
Hugging Face 开源数据集：
- https://huggingface.co/datasets/librarian-bots/model_cards_with_metadata
- https://huggingface.co/datasets/librarian-bots/dataset_cards_with_metadata
Semantic Scholar API：https://www.semanticscholar.org/product/api/tutorial

搜集汇总

数据集介绍

构建方式

在人工智能模型管理领域，ModelTables数据集的构建采用了多源数据融合策略。通过精心设计的爬取流程，从Hugging Face模型卡片、GitHub README文件以及学术论文HTML中提取表格数据，并构建多层次引用图谱以捕捉模型间的关联关系。该流程不仅解析表格结构，还通过论文引用链接、显式模型卡片链接与继承关系以及共享训练数据集三种互补信号，建立了多源真实标注，从而系统性地组织起描述AI模型性能与配置的结构化知识。

特点

ModelTables作为模型湖中结构化语义的基准数据集，其显著特点在于聚焦于模型相关的表格数据，这些表格虽规模较小但展现出密集的跨表关联性，紧密反映了模型与基准测试的协同演化。数据集覆盖超过6万个模型和9万张表格，提供了丰富的上下文信息，包括模型及其出版背景。其存储格式经过优化，采用二进制矩阵与对应CSV名称列表来表示表格间的关联性，有效提升了数据管理的效率与可扩展性。

使用方法

该数据集主要用于支持语义表格检索等研究任务。用户可通过提供的脚本进行快速推理，或从零开始执行数据爬取与训练流程。数据集文件可通过Google Drive获取，包含完整的处理后的表格、真实标注文件及中间结果。在具体应用中，研究者可基于此基准比较传统数据湖搜索操作符与信息检索基线方法，例如评估基于并集的语义表格检索或基于表格的密集检索性能，从而推动更精准的语义检索与结构化模型知识组织方法的发展。

背景与挑战

背景概述

在人工智能模型快速迭代与开源共享的浪潮中，模型性能与配置信息的结构化表达成为关键研究课题。ModelTables数据集由RJMiller实验室构建，旨在系统化地捕获模型湖中广泛存在的表格数据，这些表格通常蕴含了模型评估、参数配置等核心语义信息。该数据集整合了来自Hugging Face模型卡片、GitHub README文件以及学术论文的超过90,000张表格，覆盖60,000余个模型，通过构建多层次引用图谱，将表格与其所属的模型及出版物上下文紧密关联。其核心研究问题聚焦于如何从海量异构表格中实现精准的语义检索与关联发现，为模型结构化知识的组织、比较与检索提供了首个大规模基准，推动了模型湖中表格数据挖掘方法的发展。

当前挑战

ModelTables数据集致力于解决模型湖中表格语义检索与关联发现的挑战，其核心问题在于如何从分散、异构的表格数据中识别语义相关的表格对，以支持模型性能对比与知识整合。构建过程中的挑战主要体现在数据采集与标注层面：首先，表格来源多样，包括模型卡片、README文件与学术论文，格式与结构差异显著，需设计统一的解析与去重流程；其次，表格间关联关系的标注需依赖多源信号，如论文引用链、模型继承关系与共享训练数据集，这些信号的提取与融合涉及复杂图谱构建与噪声过滤。此外，表格规模虽较开放数据湖小，但内部关系更为密集，对检索方法的语义理解能力提出了更高要求。

常用场景

经典使用场景

在人工智能模型管理的广阔领域中，ModelTables数据集为结构化表格的语义检索提供了经典的应用场景。该数据集通过整合来自Hugging Face模型卡片、GitHub README文件和学术论文的表格数据，构建了一个涵盖超过60,000个模型和90,000张表格的语料库。研究者利用这一资源，能够深入探索模型性能与配置表格之间的密集关联关系，进而开发先进的表格搜索算法。例如，基于联合操作的语义检索方法在该数据集上实现了54.8%的P@1精度，而基于表格的密集检索则达到了66.5%，这为模型湖中的知识发现奠定了坚实基础。

衍生相关工作

围绕ModelTables数据集，已衍生出一系列重要的研究工作。例如，基于StarMie框架的语义表格发现方法在该数据集上得到了验证与优化，推动了表格联合搜索算法的发展。同时，与Table Union Search Benchmark和SANTOS数据集的交叉引用，促进了表格发现评估标准的统一。此外，LUH-DBS/Blend等统一表格发现系统利用该数据集进行了性能测试，而Pyserini工具包则为其提供了稀疏与密集检索的技术基础。这些工作共同丰富了模型结构化知识管理的技术生态。

数据集最近研究