AnaMeta

Name: AnaMeta
Creator: 西安交通大学
Published: 2023-05-27 19:27:42
License: 暂无描述

arXiv2023-05-27 更新2024-06-21 收录

下载链接：

https://github.com/microsoft/AnaMeta

下载链接

链接失效反馈

官方服务：

资源简介：

AnaMeta数据集是由西安交通大学和微软研究院合作创建的，包含467,000个表格，用于多维数据分析任务中的字段元数据知识共享。该数据集通过下游任务的监督标签，涵盖了四种常用字段元数据类型：度量/维度二分法、常用字段角色、语义字段类型和默认聚合函数。数据集的创建过程复杂，涉及多个数据源和智能监督收集。AnaMeta数据集主要应用于自动化和加速多维数据分析过程，如数据洞察发现、图表和数据透视表推荐等，旨在帮助非专业用户更有效地进行数据分析。

The AnaMeta dataset was co-developed by Xi'an Jiaotong University and Microsoft Research, consisting of 467,000 tables, and is intended for field metadata knowledge sharing in multi-dimensional data analysis tasks. Equipped with supervised labels derived from downstream tasks, this dataset covers four common types of field metadata: measure/dimension dichotomy, common field roles, semantic field types, and default aggregation functions. The construction of AnaMeta is a complex process involving multiple data sources and intelligent supervised collection. Primarily applied to automate and accelerate multi-dimensional data analysis workflows such as data insight discovery, chart and pivot table recommendation, the dataset aims to help non-professional users perform data analysis more effectively.

提供机构：

西安交通大学

创建时间：

2022-09-02

搜集汇总

数据集介绍

构建方式

在表格数据分析领域，理解字段语义对于自动化分析任务至关重要。AnaMeta数据集的构建采用了多源数据融合策略，从电子表格、公共网络表格及合成数据集中整合了467,000张表格。通过从下游分析任务（如图表与数据透视表）中提取监督标签，结合众包标注与现有知识图谱信息，系统性地标注了四类字段元数据：度量/维度二分法、常见字段角色、语义字段类型及默认聚合函数。经过数据去重、下采样及质量检验，最终形成了包含152,092个字段的度量/维度标签、149,197个常见字段角色标签、1,730,494个语义类型标签及38,030个聚合函数标签的高质量数据集。

使用方法

AnaMeta数据集可用于训练与评估表格理解模型在字段元数据推断任务上的性能。研究人员可基于该数据集构建分类模型，应用于度量/维度识别、语义类型标注等任务。数据集中提供的监督标签支持多任务学习框架，如结合知识融合与分布融合的KDF模型，通过注入知识图谱信息与统计特征提升模型表现。此外，数据集支持四种下游接口集成：元数据ID接口可直接输出分类结果用于规则约束；嵌入接口提供增强的字段向量表示；句子接口生成可读的元数据描述；预训练接口将元数据任务作为预训练目标。这些接口可灵活适配至可视化推荐、表格问答等下游分析任务，以注入字段语义知识优化模型性能。

背景与挑战

背景概述

在数据科学领域，表格数据分析作为跨领域研究的核心环节，其准确性与效率高度依赖于对字段语义的深度理解。AnaMeta数据集由微软研究院与多所高校于2023年联合构建，旨在系统化解决表格字段元数据自动识别这一关键问题。该数据集聚焦于四类核心元数据：度量与维度二分法、常见字段角色、语义字段类型及默认聚合函数，通过整合电子表格、网络表格与合成表格等多源数据，构建了包含46.7万张表格的大规模监督数据集。其创新性在于将下游分析任务中的先验知识转化为结构化标签，为表格理解模型提供了兼具广度与深度的训练资源，显著推动了自动化数据分析、可视化推荐等方向的研究进展。

当前挑战

AnaMeta数据集致力于解决表格字段元数据自动识别的核心挑战，其首要难点在于如何从原始表格中准确提取具有语义一致性的字段分类标签，例如区分数值型字段中的度量值与维度标识。构建过程中面临多重困难：一是监督标签的获取需融合下游任务日志、众包标注与知识图谱映射，涉及复杂的数据对齐与质量控制；二是表格数据的异构性导致字段分布与语义模式的泛化能力受限，需设计多源数据整合策略以覆盖真实场景的多样性；三是现有预训练表格模型对数值分布与外部知识的融合能力不足，需开发新型架构以提升元数据推理的鲁棒性。

常用场景

经典使用场景

在表格数据理解领域，AnaMeta数据集为度量与维度二分、常见字段角色、语义字段类型及默认聚合函数四类元数据提供了大规模标注监督。其经典应用场景在于构建和评估表格理解模型，特别是通过预训练表格模型（如TAPAS、TABBIE）与大型语言模型（如GPT-3.5）在元数据推断任务上的性能对比，为模型语义理解能力的量化分析奠定基础。该数据集通过融合知识图谱与分布统计信息，显著提升了模型对字段语义的深层解析能力。

解决学术问题

AnaMeta数据集系统性地解决了表格分析中字段语义理解不足的核心学术问题。传统研究多聚焦于维度字段的实体链接与类型标注，对度量字段的语义类型识别覆盖有限。该数据集通过定义度量类型分类体系并整合多源监督标签，填补了度量字段语义理解的数据空白。其提出的KDF框架有效融合知识图谱与分布特征，提升了模型对字段角色与类型的判别精度，为表格理解研究提供了新的基准与方向。

实际应用

在实际应用层面，AnaMeta数据集支撑了智能数据分析工具的增强与优化。通过将字段元数据作为中间表示注入下游任务，可显著提升表格问答（TableQA）与可视化推荐（如Table2Charts）等系统的性能。例如，在可视化生成任务中，利用元数据嵌入接口能够更精准地识别适合作为图表轴心或度量的字段，从而生成更符合分析逻辑的图表建议。这类应用在商业智能、数据洞察自动化等领域具有广泛价值。

数据集最近研究