nlcTables

Name: nlcTables
Creator: 浙江大学
Published: 2025-07-11 11:16:55
License: 暂无描述

arXiv2025-07-11 更新2025-07-15 收录

下载链接：

https://github.com/lingxicui/TableCopilot

下载链接

链接失效反馈

官方服务：

资源简介：

nlcTables数据集是用于自然语言条件表格发现（nlcTD）任务的数据集，由浙江大学研究团队创建。该数据集包含627个真实查询，覆盖NL-only、union、join和模糊条件；22,080个表格，表格大小从1到69.5K行不等，最多有33列；以及21,200个黄金标签注释，为每种查询类型提供了充分的正负真实情况。该数据集旨在解决表格发现任务中的挑战，并为自然语言条件下的表格发现提供支持。

The nlcTables dataset is a benchmark dataset for the natural language conditional table discovery (nlcTD) task, created by the research team at Zhejiang University. This dataset comprises 627 real-world queries covering NL-only, union, join and fuzzy conditions; 22,080 tables with sizes ranging from 1 to 69.5 thousand rows and up to 33 columns; and 21,200 gold label annotations, which provide sufficient positive and negative ground truths for each query type. This dataset aims to address the challenges in table discovery tasks and provide support for table discovery under natural language conditions.

提供机构：

浙江大学

创建时间：

2025-07-11

搜集汇总

数据集介绍

构建方式

nlcTables数据集的构建基于自然语言条件表发现（nlcTD）的新颖场景，该场景允许用户同时提供自然语言（NL）请求和查询表。数据集通过从大规模表池中检索相关表格来构建，具体方法包括离线数据准备和在线查询处理两个阶段。离线阶段，使用预训练的语言模型（PLMs）对表内容和元数据进行编码，并利用HNSW索引技术实现高效检索。在线阶段，采用Crofuma方法，通过交叉融合技术计算查询表与候选表之间的匹配分数，以及自然语言条件与候选表之间的匹配分数，最终生成排名列表。

特点

nlcTables数据集具有多样化的查询类型，包括仅NL搜索、NL条件表联合搜索和NL条件表连接搜索，覆盖了627个现实查询和22,080个表格。数据集的特点在于其能够处理复杂的自然语言条件，支持用户通过自然语言灵活表达需求，同时结合查询表进行精确的表发现。此外，数据集还提供了21,200个黄金标签注释，为评估表发现算法的性能提供了丰富的基础。数据集的表格规模从1到69.5K行不等，列数最多达33列，具有较高的多样性和实用性。

使用方法

nlcTables数据集的使用方法主要包括三个步骤：首先，用户通过自然语言条件和查询表输入搜索请求；其次，系统利用Crofuma方法进行在线查询处理，生成候选表的排名列表；最后，用户可以根据排名结果选择相关表格进行后续的数据处理和分析。数据集支持端到端的工作流程，从表发现到下游应用（如TableQA）的无缝集成。用户还可以通过TableCopilot原型系统，直观地编辑自然语言条件，并比较不同算法的性能，从而获得更高效的表格检索体验。

背景与挑战

背景概述

nlcTables数据集由浙江大学的研究团队于2025年提出，旨在解决大规模表池中基于自然语言条件的表格发现问题。该数据集是TableCopilot系统的核心组成部分，TableCopilot是一种基于大型语言模型（LLM）的交互式表格助手，能够支持自然语言条件表格发现（nlcTD）的新场景。nlcTables包含627个现实查询、22,080个表格和21,200个黄金标签注释，覆盖了自然语言查询、表格联合和连接等多种任务。该数据集的推出填补了现有表格助手在表格发现能力上的空白，为数据管理和分析领域提供了新的研究范式。

当前挑战

nlcTables数据集面临的主要挑战包括两方面：领域问题挑战和构建过程挑战。在领域问题方面，传统的表格发现方法通常仅依赖关键词或单一表格查询，难以处理复杂的自然语言条件，导致检索结果无法满足用户个性化需求。在构建过程中，挑战包括如何有效编码表格内容和元数据以支持自然语言条件匹配，以及如何设计高效的索引结构以实现实时查询响应（平均查询时间低于500毫秒）。此外，数据集还需解决跨模态匹配问题，即如何同时处理自然语言条件和查询表格的语义关联，这对算法的设计和优化提出了较高要求。

常用场景

经典使用场景

nlcTables数据集在自然语言条件表发现（nlcTD）场景中展现出卓越的应用价值。该数据集通过结合自然语言查询与参考表格，为多模态表格检索任务提供了标准化评估基准。在学术研究中，它常被用于验证跨模态表格匹配算法的有效性，特别是在处理复杂语义约束下的表格联合与连接操作时，能够精准评估模型对结构化数据与自然语言的双向理解能力。

解决学术问题

该数据集有效解决了表格发现领域两大核心问题：一是传统关键词或单表查询无法捕捉复杂语义需求的问题，通过引入自然语言条件实现了意图的精确表达；二是弥补了LLM在结构化数据理解上的局限性，通过专门设计的跨模态匹配框架Crofuma，在NDCG@5指标上超越现有方法12%以上。其创新性评估体系为表格数据与自然语言交互研究建立了新的方法论范式。

衍生相关工作

该数据集催生了多个跨模态表格理解的重要研究：Starmie改进了基于对比学习的列表示方法，Deepjoin探索了预训练模型在表连接任务的应用。其构建的评估框架直接启发了后续工作如LakeCompass的多任务支持设计，而提出的Crofuma架构更成为TableLLM等表格大模型的基础组件。相关技术已在VLDB、SIGMOD等顶级会议形成持续的研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集