DA-Code

Name: DA-Code
Creator: 中国科学院自动化研究所复杂系统认知与决策重点实验室, 中国科学院大学人工智能学院, 上海人工智能实验室
Published: 2024-10-10 02:00:05
License: 暂无描述

arXiv2024-10-10 更新2024-10-12 收录

下载链接：

https://da-code-bench.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

DA-Code是由中国科学院自动化研究所复杂系统认知与决策重点实验室和中国科学院大学人工智能学院联合创建的数据科学代码生成基准。该数据集包含500个复杂的任务示例，涵盖数据整理、机器学习和探索性数据分析三大类别，旨在模拟真实世界的数据分析场景。数据集的创建过程经过精心设计，确保任务的高质量和复杂性，适用于评估大型语言模型在数据科学任务中的表现，旨在解决复杂数据处理和分析中的实际问题。

DA-Code is a data science code generation benchmark jointly developed by the Key Laboratory of Complex Systems Cognition and Decision, Institute of Automation, Chinese Academy of Sciences, and the School of Artificial Intelligence, University of Chinese Academy of Sciences. This dataset includes 500 complex task examples spanning three core categories: data tidying, machine learning, and exploratory data analysis, which is designed to simulate real-world data analysis scenarios. The dataset was meticulously crafted during its development to ensure high task quality and complexity, making it suitable for evaluating the performance of large language models on data science tasks, and it aims to address practical problems in complex data processing and analysis.

提供机构：

中国科学院自动化研究所复杂系统认知与决策重点实验室, 中国科学院大学人工智能学院, 上海人工智能实验室

创建时间：

2024-10-10

搜集汇总

数据集介绍

构建方式

DA-Code数据集的构建方式独具匠心，其任务设计不仅超越了传统的代码生成任务，更强调了在数据科学领域中高级编程技能的重要性，特别是在数据接地和规划方面。该数据集中的示例均基于真实且多样化的数据，涵盖了复杂的数据整理和分析任务。为了确保任务的解决，模型必须利用复杂的数据科学编程语言，进行精细的数据处理并得出答案。数据集在可控且可执行的环境中构建，与实际数据分析场景相契合，并具有可扩展性。标注者精心设计了评估套件，以确保评估的准确性和鲁棒性。

使用方法

DA-Code数据集的使用方法多样，主要用于评估大型语言模型在代理数据科学任务中的代码生成能力。研究者可以通过访问数据集的官方网站获取数据，并在提供的可执行环境中进行模型的训练和测试。数据集中的任务设计灵活，支持多种编程语言和工具的使用，研究者可以根据需要选择合适的编程语言和工具进行任务的解决。此外，数据集还提供了详细的评估套件和评分方法，帮助研究者系统地评估模型的性能。

背景与挑战

背景概述

DA-Code数据集由中科院自动化研究所复杂系统认知与决策重点实验室、中国科学院大学人工智能学院、加州大学戴维斯分校、微软亚洲研究院和上海人工智能实验室联合开发。该数据集于2024年发布，旨在评估大型语言模型（LLMs）在基于代理的数据科学任务中的代码生成能力。DA-Code的核心研究问题是如何使LLMs成为自主数据科学家，能够独立决策并解决代理数据科学问题。该数据集通过引入复杂的任务、多样化的数据源和复杂的解决方案，显著提升了数据科学领域的研究水平，为LLMs在实际数据分析场景中的应用提供了宝贵的资源。

当前挑战

DA-Code数据集在构建过程中面临多项挑战。首先，任务的复杂性远超传统代码生成任务，要求模型具备高级的编码技能，特别是在数据接地和规划方面。其次，数据集中的示例均基于真实且多样化的数据，涵盖了复杂的数据整理和分析任务，这增加了模型理解和处理的难度。此外，模型需要利用复杂的数据科学编程语言（如Python和SQL）进行精细的数据处理和分析，这对模型的编程能力提出了高要求。实验结果显示，尽管现有最先进的LLMs在DA-Code上的准确率仅为30.5%，表明该数据集在推动LLMs性能提升方面仍有巨大潜力。

常用场景

经典使用场景

DA-Code数据集的经典使用场景在于评估大型语言模型（LLMs）在基于代理的数据科学任务中的代码生成能力。该数据集通过模拟真实且复杂的数据处理和分析任务，要求模型不仅能够生成代码，还需具备高级的编码技能，如数据接地和规划。这种场景下，模型需要处理多样化的数据源，包括数据库、电子表格和文档等，并使用复杂的编程语言如Python和SQL来执行精细的数据处理和分析。

解决学术问题

DA-Code数据集解决了当前学术研究中关于大型语言模型在数据科学领域应用的关键问题。传统上，数据科学任务需要高度的编程专业知识和技能，这为非专业人士设置了显著的障碍。DA-Code通过提供一个可控且可执行的环境，使得研究人员能够评估和改进LLMs在复杂数据分析任务中的表现，从而推动了数据科学自动化的研究进展。

实际应用

在实际应用中，DA-Code数据集为开发能够自主执行数据科学任务的智能代理提供了宝贵的资源。这些代理可以应用于各种行业，如金融、医疗和市场分析，帮助企业自动化数据清洗、分析和报告生成等任务。通过减少对专业数据科学家的依赖，这些智能代理能够显著提高数据处理效率和决策质量。

数据集最近研究