Text2Analysis

arXiv2023-12-21 更新2024-06-21 收录

下载链接：

https://github.com/microsoft/Text2Analysis

下载链接

链接失效反馈

官方服务：

资源简介：

Text2Analysis数据集由微软开发，专注于超越基础SQL操作的高级表格数据分析任务，如预测和图表生成。该数据集包含2249个查询-结果对，涉及347个表格，旨在评估模型处理复杂分析和模糊查询的能力。创建过程中，采用了五种创新的标注方法，利用大型语言模型提高数据质量和数量。此数据集适用于推动表格数据分析领域的先进研究，特别是解决模型在理解和执行高级分析任务方面的挑战。

The Text2Analysis dataset was developed by Microsoft, focusing on advanced tabular data analysis tasks that extend beyond basic SQL operations, such as prediction and chart generation. This dataset comprises 2249 query-result pairs involving 347 tables, and is designed to evaluate models' capabilities in handling complex analytical and ambiguous queries. Five innovative annotation methods were adopted during its development, leveraging large language models to improve both the quality and quantity of the dataset. This dataset is suitable for advancing cutting-edge research in the field of tabular data analysis, particularly in addressing the challenges faced by models when understanding and executing advanced analytical tasks.

提供机构：

微软

创建时间：

2023-12-21

搜集汇总

数据集介绍

构建方式

Text2Analysis数据集的构建采用了五种创新的标注方法，充分利用了大型语言模型的能力，以加速标注过程并提高数据量。这些方法包括前向标注、代码片段的反向生成、结果的反向生成、新表的扩展以及不清晰查询的扩展。前向标注通过专家标注生成代码，并使用自动调试工具进行迭代优化。反向生成方法则通过已有的代码或结果生成相应的查询，从而丰富数据集的多样性。新表的扩展和不清晰查询的扩展进一步增加了数据集的复杂性和真实性。

特点

Text2Analysis数据集的特点在于其涵盖了高级分析任务和不清晰查询，超越了传统的Text2SQL和TableQA数据集的局限。数据集包含了描述性、诊断性、预测性和规范性分析任务，如预测、图表生成等，并引入了不清晰查询，模拟了真实世界中用户可能提出的模糊问题。此外，数据集还包含了2249个查询-结果对和347个表格，确保了数据的多样性和高质量。

使用方法

Text2Analysis数据集适用于评估和训练能够处理复杂表格数据分析任务的模型。用户可以通过输入表格和查询，生成相应的Python代码和结果，从而测试模型在高级分析任务和不清晰查询上的表现。数据集提供了多种评估指标，如可执行代码比例、通过率和回归分数，帮助用户全面评估模型的性能。此外，数据集的开源代码和表格数据为研究者提供了丰富的资源，支持进一步的研究和模型优化。

背景与挑战

背景概述

Text2Analysis数据集由西安交通大学、微软研究院和中国科学院软件研究所的研究团队共同开发，旨在填补现有研究在表格数据分析领域的空白。该数据集专注于高级分析任务，如预测和图表生成，超越了传统的Text2SQL和TableQA等基础任务。通过引入模糊查询，Text2Analysis模拟了真实世界中用户提问的复杂性，要求模型不仅具备语义解析能力，还需具备强大的数据分析能力。数据集包含了2249个查询-结果对，涵盖347个表格，并通过五种创新的标注方法确保了数据的质量和多样性。

当前挑战

Text2Analysis数据集面临的挑战主要集中在两个方面：一是高级分析任务的复杂性，如预测和图表生成，这些任务不仅需要模型生成可执行的代码，还需具备对复杂库和参数输入的理解能力；二是模糊查询的处理，这类查询通常缺少关键参数，要求模型具备推荐分析字段和填补缺失信息的能力。此外，数据集的构建过程中，标注成本高昂，需要具备相关专业背景的标注人员，且标注过程耗时较长，尽管通过利用大型语言模型加速了标注过程，但仍需进一步优化以提高效率。

常用场景

经典使用场景

Text2Analysis数据集的经典使用场景主要集中在表格数据的复杂分析任务上，如预测分析、图表生成和基础洞察提取。该数据集通过提供包含高级分析任务的查询和对应的Python代码，帮助研究人员评估和提升模型在处理复杂数据分析任务中的能力。例如，模型可以通过该数据集学习如何根据历史数据进行销售预测，或生成可视化图表以展示数据趋势。

衍生相关工作

Text2Analysis数据集的发布催生了一系列相关研究工作，特别是在表格数据分析和自然语言处理领域。许多研究者基于该数据集开发了新的模型和方法，以提升模型在处理高级分析任务和模糊查询时的表现。例如，一些研究工作专注于改进模型的代码生成能力，使其能够更准确地执行复杂的分析操作。此外，该数据集还激发了对大语言模型在表格数据分析中应用的深入研究，推动了该领域的技术进步。

数据集最近研究