StatLLM

Name: StatLLM
Creator: 弗吉尼亚理工大学统计系
Published: 2025-02-25 05:11:20
License: 暂无描述

arXiv2025-02-25 更新2025-02-27 收录

下载链接：

https://github.com/yili-hong/StatLLM

下载链接

链接失效反馈

官方服务：

资源简介：

StatLLM是一个开源数据集，旨在评估大型语言模型在统计分析中的性能。该数据集由弗吉尼亚理工大学统计系创建，包含三个主要部分：统计分析任务、LLM生成的SAS代码和人类评估分数。统计分析任务涵盖了多种统计分析和数据集，提供了问题描述、数据集细节和经过人工验证的SAS代码。数据集大小为207个任务，涵盖了数据管理、描述性统计、数据可视化、假设检验、方差分析、回归、广义线性模型等多种统计方法。

StatLLM is an open-source dataset designed to evaluate the performance of Large Language Models (LLMs) in statistical analysis. Developed by the Department of Statistics at Virginia Tech, the dataset comprises three core components: statistical analysis tasks, SAS code generated by LLMs, and human evaluation scores. The statistical analysis tasks cover a wide range of statistical methods and datasets, providing problem descriptions, dataset details, and manually verified SAS code. The dataset contains 207 tasks in total, spanning various statistical techniques including data management, descriptive statistics, data visualization, hypothesis testing, analysis of variance (ANOVA), regression, generalized linear models, and other related statistical approaches.

提供机构：

弗吉尼亚理工大学统计系

创建时间：

2025-02-25

搜集汇总

数据集介绍

构建方式

StatLLM 数据集的构建方式涉及三个关键组成部分。首先，收集了包括生物学、医学研究、工程和社会科学等多个学科领域的 65 个 CSV 数据集，并创建了 207 个独特的统计分析任务。每个任务都附有详细的 SAS 编程语言实现和人类验证的 SAS 代码。其次，利用 ChatGPT 3.5、ChatGPT 4.0 和 Llama 3.1 这三个 LLM 模型生成 SAS 代码。最后，由统计学专家对生成的代码进行评估，根据代码质量、可执行性和输出准确性等多个标准进行打分。

特点

StatLLM 数据集的特点包括：1) 包含广泛的统计分析任务，涵盖了数据可视化、描述性统计、假设检验、回归和 ANOVA、广义线性模型、生存分析、模型选择和非参数统计等多个主题；2) 包含由 ChatGPT 3.5、ChatGPT 4.0 和 Llama 3.1 生成的 SAS 代码；3) 包含由统计学专家对生成的代码进行的评估分数，提供了对代码正确性、有效性、可读性、可执行性和输出准确性的严格评估。

使用方法

StatLLM 数据集的使用方法包括：1) 使用自动 NLP 指标比较 LLM 生成的代码和人类验证的代码，以获得性能评分；2) 使用机器学习技术，如线性回归、随机森林、XGBoost 和深度学习模型，预测人类评分，从而改进现有的 NLP 指标；3) 评估和比较不同 LLM 生成的代码版本，以提高代码的鲁棒性和性能；4) 扩展数据集以生成其他统计编程语言的代码，例如 Python 和 R；5) 开发和测试下一代统计软件，使用户能够通过自然语言与统计工具进行交互。

背景与挑战

背景概述

StatLLM数据集的创建旨在评估大型语言模型（LLMs）在统计分析中的性能。随着LLMs在编码能力上的提升，自动统计分析在机器学习和数据科学领域展现出新的可能性。然而，在LLMs被广泛采用之前，对其生成的代码的准确性进行评估至关重要。当前LLMs（如ChatGPT和Llama）能够生成SAS和R语言的统计代码，但评估这些模型生成的代码准确性面临着关键挑战：缺乏一个系统设计的基准数据集。StatLLM数据集填补了这一空白，由统计分析任务、LLM生成的SAS代码和专家人类评估分数三个关键组成部分构成。它为LLMs在统计分析中的性能评估提供了一个全面的基准，对于推动数据科学和机器学习研究具有重要意义。

当前挑战

StatLLM数据集在解决领域问题方面面临的挑战包括：1) 缺乏一个系统设计的基准数据集来评估LLMs在统计分析中的性能，这限制了LLMs生成的统计代码在准确性、可执行性和输出质量方面的量化评估。2) 构建StatLLM数据集的过程中，收集和整理了65个CSV数据集，并创建了207个统计分析任务，每个任务都附带详细的SAS代码解决方案。为了确保可靠性，研究人员手动验证和测试了每个SAS代码解决方案，确认它为其对应的问题产生了准确的结果。此外，评估LLM生成的代码的专家人类评估分数也是一个挑战，因为它需要大量的时间和专业知识。尽管StatLLM数据集为评估LLMs在统计分析中的性能提供了一个全面的基准，但它仍然需要进一步的研究和改进，以更好地服务于数据科学和机器学习研究。

常用场景

经典使用场景

StatLLM 数据集为评估大型语言模型（LLM）在统计分析中的性能提供了宝贵的资源。该数据集包含三个关键组成部分：统计分析任务、LLM 生成的 SAS 代码以及专家人类评估分数。统计分析任务涵盖了广泛的主题，包括数据可视化、描述性统计、假设检验、回归和 ANOVA、广义线性模型、生存分析、模型选择和非参数统计。这些任务为 LLM 提供了评估其在理解统计分析要求和生成准确统计代码方面的能力的挑战。LLM 生成的 SAS 代码部分包括 ChatGPT 3.5、ChatGPT 4.0 和 Llama 3.1 生成的代码，这些代码被用于执行统计分析任务。专家人类评估分数部分提供了对 LLM 生成的代码的严格评估，包括代码质量、可执行性和输出准确性。这些评估由统计专家进行，确保了评估的准确性和可靠性。

解决学术问题

StatLLM 数据集解决了评估 LLM 生成的统计代码准确性和可靠性的关键挑战。在评估 LLM 的编程能力时，缺乏一个系统设计的基准数据集，特别是对于 SAS 和 R 等统计编程语言。StatLLM 数据集填补了这一空白，提供了一个全面的数据集，用于评估 LLM 在统计分析中的性能。该数据集的独特之处在于它包含了由人类专家验证的 SAS 代码和 LLM 生成的 SAS 代码，使得研究人员可以系统地评估 LLM 生成的统计代码的正确性、可执行性和输出质量。

衍生相关工作

StatLLM 数据集衍生了多项相关研究，包括评估和改进 NLP 指标、评估和改进 LLM 在统计编程方面的性能，以及开发和应用下一代统计软件。例如，研究人员使用 StatLLM 数据集评估了现有 NLP 指标在评估统计代码方面的适用性，并开发了一种新的基于机器学习的指标来预测人类评估分数。此外，StatLLM 数据集还被用于评估和比较不同的集成建模技术，以改进 LLM 生成的代码的鲁棒性和性能。最后，StatLLM 数据集已被用于开发一个 R Shiny 应用程序，该应用程序利用 LLM 进行自动统计分析，从而简化了统计分析过程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集