DataSciBench

Name: DataSciBench
Creator: 清华大学
Published: 2025-02-20 01:31:51
License: 暂无描述

arXiv2025-02-20 更新2025-02-21 收录

下载链接：

https://github.com/THUDM/DataSciBench/

下载链接

链接失效反馈

官方服务：

资源简介：

DataSciBench是由清华大学和智谱AI共同构建的一个全面评估大型语言模型在数据科学领域任务性能的基准。该数据集包含222个真实、具有挑战性且高质量的数据科学任务提示，涵盖了数据清洗与预处理、数据探索与统计理解、数据可视化、预测建模、数据挖掘与模式识别、解释性与报告生成六大任务类型。数据集通过在线平台CodeGeeX、公共代码基准BigCodeBench、人工编写以及LLM生成等方式收集问题，经过专家审核和验证，确保了数据集的质量和可靠性。该数据集旨在推动大型语言模型在数据科学领域的研究和应用，解决复杂的数据分析问题。

DataSciBench is a comprehensive benchmark for evaluating the performance of large language models on data science tasks, jointly developed by Tsinghua University and Zhipu AI. This dataset includes 222 real, challenging and high-quality data science task prompts, covering six task categories: data cleaning and preprocessing, data exploration and statistical understanding, data visualization, predictive modeling, data mining and pattern recognition, and interpretability and report generation. Questions in the dataset are collected through multiple channels including the online platform CodeGeeX, the public code benchmark BigCodeBench, manual writing, and LLM-generated content, and have been reviewed and validated by experts to ensure the quality and reliability of the dataset. This benchmark aims to promote the research and application of large language models in the data science field and solve complex data analysis problems.

提供机构：

清华大学

创建时间：

2025-02-20

搜集汇总

数据集介绍

构建方式

DataSciBench 数据集的构建采用了半自动化流程，旨在评估大型语言模型（LLM）在数据科学领域的表现。该流程利用收集的自然且具有挑战性的提示，以及预定义的任务类型和聚合函数（指标），通过 LLM 的自我一致性策略和人工验证方法生成准确的地面真实数据（GT）。此外，该数据集还提出了创新的 Task-Function-Code（TFC）框架，用于根据精确定义的指标和程序化规则评估每个代码执行结果。

使用方法

DataSciBench 数据集的使用方法涉及三个主要组件。首先，通过提示定义和收集组件收集高质量的提示，然后通过响应集成和验证组件生成测试用例并定义评估指标。最后，通过 LLM 评估组件评估不同模型在粗粒度和细粒度层面的性能。用户可以使用该数据集来评估和比较 LLM 在数据科学任务中的表现，并从中获得有价值的见解和指导。

背景与挑战

背景概述

在数据科学领域，大型语言模型（LLM）的应用日益广泛，尤其是在数据分析和数据可视化方面。为了评估LLM在数据科学任务中的能力，Dan Zhang等研究人员于2025年提出了DataSciBench数据集。该数据集旨在解决现有基准测试的局限性，这些基准测试通常关注单一任务，且易于获取真实值和直接的评估指标。DataSciBench基于一个更全面和精选的自然和具有挑战性的提示集合，用于不确定的真实值和评估指标。通过半自动化流程生成真实值并验证评估指标，该数据集利用LLM的自洽性和人类验证策略，产生准确的真实值。此外，研究人员提出了一个创新的Task-Function-Code（TFC）框架，用于根据精确定义的指标和程序规则评估每个代码执行结果。DataSciBench的发布为LLM在数据科学领域的能力评估提供了更全面和严格的框架，揭示了LLM的优劣。

当前挑战

DataSciBench数据集面临的挑战包括：1) 所解决的领域问题的挑战：真实世界的数据分析任务通常需要推理复杂的场景，而现有的基准测试往往局限于易于获取真实值和直接的评估指标的任务。DataSciBench旨在通过引入更复杂和具有挑战性的任务来解决这个问题。2) 构建过程中所遇到的挑战：为了确保评估的准确性和可靠性，DataSciBench采用了半自动化流程来生成真实值和验证评估指标。然而，在处理具有不确定真实值和评估指标的任务时，如何生成准确的真实值和定义具体的评估指标仍然是一个挑战。

常用场景

经典使用场景

DataSciBench是一个用于评估大型语言模型（LLM）在数据科学领域能力的综合基准。该数据集构建在一个更全面和精选的自然和挑战性的提示集合上，这些提示具有不确定的基线和评估指标。DataSciBench通过利用收集到的提示、预定义的任务类型和聚合函数（指标）来生成准确的基线，并通过半自动化的流程进行验证。此外，DataSciBench还提出了一个创新的Task-Function-Code（TFC）框架，用于根据精确定义的指标和编程规则评估每个代码执行结果。

解决学术问题

DataSciBench解决了LLM在数据科学任务评估中的局限性。现有的基准通常专注于单一任务，易于获得的基线和直接的评估指标，这限制了可以评估的任务范围。DataSciBench通过引入更具挑战性的提示和更复杂的任务类型，以及半自动化的基线生成和评估流程，为LLM在数据科学领域的评估提供了更全面和严格的方法。DataSciBench的评估结果揭示了LLM在数据科学任务中的优势和不足，为LLM的发展和应用提供了有价值的参考。

实际应用

DataSciBench在实际应用中可用于评估LLM在数据科学领域的性能。通过使用DataSciBench，研究人员和开发人员可以更全面地了解LLM在数据分析和数据可视化任务中的能力，并识别其优势和不足。此外，DataSciBench还可以用于指导LLM的设计和优化，以提高其处理复杂数据科学任务的能力。例如，DataSciBench可以用于评估LLM在数据清洗、数据探索、数据可视化、预测建模、数据挖掘和模式识别、可解释性和报告生成等任务中的表现。

数据集最近研究