five

DART

收藏
arXiv2025-03-17 更新2025-03-19 收录
下载链接:
http://arxiv.org/abs/2503.13262v1
下载链接
链接失效反馈
官方服务:
资源简介:
DART数据集是为了支持表格数据分析推荐框架TablePilot的研究而创建的。该数据集用于综合表格数据分析推荐的实验,包含多种类型的数据分析任务,如基本分析、数据可视化、统计建模等。数据集的具体内容、创建过程和应用领域在论文中没有详细描述,但它是为了解决在零转折场景下,即没有用户配置文件或历史记录时,自动推荐高质量数据分析查询和结果的问题。

The DART dataset was developed to support research on the tabular data analysis recommendation framework TablePilot. It is employed for comprehensive experiments on tabular data analysis recommendations, encompassing multiple types of data analysis tasks including basic analysis, data visualization, statistical modeling, and so on. The specific content, creation process, and application domains of this dataset are not elaborated in the relevant paper, but it is constructed to address the problem of automatically recommending high-quality data analysis queries and results in zero-turn scenarios, that is, when there are no user profiles or historical records available.
提供机构:
上海财经大学, 北京大学, 伊利诺伊大学厄巴纳-香槟分校, 微软研究院
创建时间:
2025-03-17
搜集汇总
数据集介绍
main_image_url
构建方式
DART数据集的构建过程基于Table2Charts数据集中的真实表格数据,通过筛选具有强表格结构的表格,并利用GPT-4生成多样化的查询和对应的代码实现。生成过程中,确保查询覆盖从简单转换到高级统计建模任务的复杂性,并使用Python库如Pandas、Matplotlib和StatsModels生成代码。最终,通过人工评估筛选出符合清晰性、正确性和人类偏好的查询-代码-结果三元组,确保数据集的高质量和实用性。
特点
DART数据集专注于全面的表格数据分析推荐任务,涵盖了基础分析、数据可视化和统计建模三大类任务。数据集中的每个查询-代码-结果三元组都经过精心设计,确保其准确性和多样性。此外,DART数据集特别强调与人类偏好的对齐,确保生成的推荐结果不仅具有技术上的准确性,还能提供有意义且可解释的洞察。数据集的多样性和复杂性使其成为评估表格数据分析推荐系统的理想基准。
使用方法
DART数据集的使用方法主要包括三个步骤:首先,通过输入表格数据,生成多样化的分析查询和对应的代码;其次,执行生成的代码并获取分析结果;最后,通过排名模块对生成的结果进行评分和排序,推荐最符合人类偏好的分析结果。数据集的使用场景广泛,适用于零样本推荐任务,特别是在没有用户画像或历史交互的情况下,能够自动生成高质量的表格数据分析推荐。
背景与挑战
背景概述
DART数据集由微软研究院等机构的研究人员于2025年创建,旨在支持表格数据分析推荐任务。该数据集的核心研究问题是如何在零样本场景下,自动生成高质量的表格数据分析查询、代码和结果三元组。DART的创建标志着表格数据分析领域的一个重要里程碑,特别是在结合大语言模型(LLMs)进行自动化分析方面。该数据集通过提供多样化的表格数据和分析任务,推动了表格数据分析的自动化和智能化,显著提升了数据分析的效率和准确性。
当前挑战
DART数据集面临的主要挑战包括:1)表格数据的复杂性和规模使得大语言模型在处理时容易产生幻觉,导致结果不准确;2)现有方法通常局限于单一类型的分析操作,缺乏多样性,难以提供全面的分析结果;3)如何设计一个系统,使其生成的分析结果符合人类的认知偏好,确保结果具有可解释性和实用性。此外,数据集的构建过程中也面临挑战,如如何确保数据的多样性和高质量,以及如何设计有效的评估指标来衡量推荐系统的性能。
常用场景
经典使用场景
DART数据集在表格数据分析推荐任务中具有广泛的应用场景,尤其是在零样本推荐(zero-turn recommendation)任务中表现突出。该数据集通过提供表格数据及其对应的分析查询、代码和结果三元组,支持自动化生成高质量的分析推荐。其经典使用场景包括在无用户历史交互或用户画像的情况下,为新表格推荐适合的分析操作,涵盖基础分析、数据可视化和统计建模等多种任务。
解决学术问题
DART数据集解决了表格数据分析中的多个常见学术问题。首先,它通过提供多样化的分析操作三元组,解决了传统方法在泛化能力和性能上的不足。其次,数据集支持基于大语言模型的分析推荐,显著提升了分析的准确性和多样性。此外,DART通过引入Rec-Align方法,进一步优化了推荐结果与人类偏好的对齐,解决了分析结果与用户期望不一致的问题。这些贡献为表格数据分析推荐任务提供了新的研究方向和基准。
衍生相关工作
DART数据集衍生了许多相关研究工作,尤其是在基于大语言模型的表格数据分析领域。例如,TablePilot框架利用DART数据集验证了其在零样本推荐任务中的有效性,并提出了模块化分析和Rec-Align方法。此外,DART还启发了其他研究,如基于多模态大语言模型的表格数据可视化推荐、表格数据的统计建模优化等。这些工作进一步扩展了DART的应用范围,推动了表格数据分析技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作