DS-1000

Name: DS-1000
Creator: 香港大学
Published: 2022-11-19 01:20:27
License: 暂无描述

arXiv2022-11-19 更新2024-06-21 收录

下载链接：

https://ds1000-code-gen.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

DS-1000是由香港大学等机构创建的一个包含1000个数据科学问题的代码生成基准数据集。该数据集涵盖了NumPy、Pandas等七个Python库的实际应用问题，旨在通过自然语言描述生成相应的代码解决方案。数据集通过从StackOverflow收集真实问题，并采用多标准自动评估方法确保解决方案的正确性和可靠性。DS-1000的应用领域包括提高代码生成模型的性能，解决数据科学编程中的实际问题，推动相关技术的发展。

DS-1000 is a code generation benchmark dataset consisting of 1,000 data science problems, developed by institutions including the University of Hong Kong. This dataset covers practical application scenarios across seven Python libraries such as NumPy and Pandas, with the goal of generating corresponding code solutions based on natural language descriptions. The dataset collects real-world problems from StackOverflow, and employs multi-criteria automatic evaluation methods to guarantee the correctness and reliability of the solutions. The application areas of DS-1000 include enhancing the performance of code generation models, addressing practical issues in data science programming, and advancing the development of relevant technologies.

提供机构：

香港大学

创建时间：

2022-11-19

搜集汇总

数据集介绍

构建方式

DS-1000数据集通过从StackOverflow上收集自然发生的数据科学问题构建，涵盖了七个广泛使用的Python数据科学库：NumPy、Pandas、TensorFlow、PyTorch、SciPy、Scikit-learn和Matplotlib。构建过程中，首先筛选出具有代表性和实用性的问题，然后通过手动重写问题和参考解决方案，确保问题具有明确的执行上下文和可执行的参考解决方案。随后，实现了多标准自动评估，包括功能正确性和表面形式约束，以确保评估的可靠性。最后，通过轻微修改问题以防止模型通过预训练记忆来回答，从而增强了数据集的挑战性。

使用方法

DS-1000数据集主要用于评估和改进数据科学代码生成模型的性能。使用者可以通过提供的官方提示格式（插入格式和完成格式）来生成代码，并通过多标准自动评估来验证生成的代码是否正确。数据集还提供了详细的统计信息和评估方法，帮助研究者了解模型的性能瓶颈和改进方向。通过在DS-1000上的评估，可以全面了解模型在不同数据科学库上的表现，从而推动数据科学代码生成技术的发展。

背景与挑战

背景概述

DS-1000，由香港大学、北京大学、斯坦福大学、加州大学伯克利分校、华盛顿大学、Meta AI和卡内基梅隆大学的研究人员共同开发，是一个专注于数据科学代码生成的基准测试数据集。该数据集于2022年11月18日发布，包含了从StackOverflow收集的1000个数据科学问题，涵盖了NumPy、Pandas等七个Python库。DS-1000的核心研究问题是如何生成可靠且多样化的数据科学代码，以降低非专业用户使用这些库的门槛。该数据集的引入填补了现有数据集在日常数据科学应用、自然意图和上下文以及可靠执行评估指标方面的空白，对推动数据科学领域的发展具有重要意义。

当前挑战

DS-1000数据集在构建过程中面临多个挑战。首先，从StackOverflow收集的问题具有多样性和现实性，但如何确保这些问题的代表性和实用性是一个挑战。其次，自动评估生成的代码是否正确需要高度特定的多标准指标，这要求在功能正确性和表面形式约束之间找到平衡。最后，防止模型通过记忆预训练数据中的解决方案来回答问题也是一个重要挑战。当前最优的公共系统Codex-002在DS-1000上的准确率仅为43.3%，表明该数据集仍有很大的改进空间。

常用场景

经典使用场景

DS-1000数据集的经典使用场景在于评估和提升数据科学代码生成模型的性能。该数据集包含了从StackOverflow收集的1000个真实且多样化的数据科学问题，涵盖了NumPy、Pandas等七个常用的Python库。通过这些真实世界的问题，研究者可以测试和改进模型在处理复杂、多样的数据科学任务时的表现。

解决学术问题

DS-1000数据集解决了现有数据科学代码生成基准在真实性和可靠性方面的不足。传统的基准通常集中在竞赛或面试风格的编程问题上，而DS-1000则专注于日常数据科学应用，提供了自然且可靠的执行评估指标。这不仅有助于推动数据科学代码生成技术的发展，还为学术界提供了一个更为真实和全面的评估平台。

实际应用

在实际应用中，DS-1000数据集可以帮助开发者和数据科学家评估和选择适合特定任务的代码生成模型。例如，在数据分析和机器学习项目中，开发者可以使用DS-1000来测试模型在处理不同库和复杂任务时的表现，从而选择最合适的工具。此外，该数据集还可以用于培训和教育，帮助学生和新手更好地理解和应用数据科学工具。

数据集最近研究