BLADE

Name: BLADE
Creator: 华盛顿大学
Published: 2024-08-21 04:25:10
License: 暂无描述

arXiv2024-08-21 更新2024-08-21 收录

下载链接：

https://github.com/behavioral-data/BLADE

下载链接

链接失效反馈

官方服务：

资源简介：

BLADE数据集由华盛顿大学等机构创建，包含12个从现有科学文献中提取的数据集和研究问题。数据集通过专家数据科学家和研究人员的独立分析收集了真实数据。数据集的创建过程涉及专家的多阶段分析和验证，确保了分析的高质量和多样性。BLADE数据集主要用于评估语言模型代理在数据驱动科学中的应用，特别是在开放式研究问题上的分析能力。

The BLADE dataset, developed by institutions including the University of Washington, comprises 12 datasets and research questions extracted from existing scientific literature. Real-world data was collected through independent analyses conducted by expert data scientists and researchers. Its development process involves multi-stage analysis and validation by experts, ensuring high quality and diversity of the analytical results. The BLADE dataset is primarily used to evaluate the capabilities of language model agents in data-driven science, especially their analytical performance on open-ended research questions.

提供机构：

华盛顿大学

创建时间：

2024-08-19

搜集汇总

数据集介绍

构建方式

BLADE数据集的构建方式是通过收集来自现有科学文献的研究问题、数据集以及由专家数据科学家和研究人员进行的独立分析所得到的真实分析结果。该数据集由12个数据集和研究问题组成，这些问题来自于现有的科学文献。为了自动评估代理的响应，研究人员开发了相应的计算方法，将不同的分析表示形式与真实分析结果进行匹配。

特点

BLADE数据集的特点包括：1) 数据集涵盖了多个领域的研究问题，如行为科学、金融经济学、健康与福祉、进化生物学等；2) 数据集包含了由专家数据分析师和研究人员进行的独立分析所得到的真实分析结果；3) 数据集使用了多种不同的分析方法和模型，如逻辑回归、斯皮尔曼相关、负二项回归等。

使用方法

使用BLADE数据集的方法包括：1) 通过多轮LM辅助的交互，让代理生成完整的分析，包括相关的概念变量、数据转换函数和统计模型函数；2) 使用自动评估框架，对代理的响应进行评估，以衡量代理在分析决策方面的能力；3) 通过对代理的响应进行评估，研究人员可以深入了解代理的分析方法，并识别代理的优缺点。

背景与挑战

背景概述

在数据驱动科学发现的背景下，研究人员需要不断整合科学领域知识、统计专业技能和对数据语义的理解，以做出细致的分析决策。为了支持这一过程，基于语言模型的智能体被赋予了规划、记忆和代码执行能力。然而，评估这些智能体在开放性任务上的表现具有挑战性，因为这些任务通常具有多种有效方法、部分正确的步骤以及不同的决策表达方式。为了解决这些挑战，研究人员提出了BLADE数据集，这是一个用于自动评估智能体在开放性研究问题上的多方面方法的基准。BLADE由12个数据集和研究问题组成，这些数据集和研究问题来自现有的科学文献，并且由独立分析专家收集了地面真实数据。为了自动评估智能体的响应，研究人员开发了相应的计算方法，将不同分析表示与地面真实数据相匹配。这项工作使数据驱动科学的智能体评估成为可能，并为研究人员提供了对智能体分析方法的深入了解。

当前挑战

BLADE数据集面临的主要挑战包括：1)评估智能体在开放性数据分析中的表现，特别是自动评估的挑战；2)在数据分析过程中，智能体需要识别和评估多个中间决策，这些决策对于提高智能体性能至关重要；3)数据分析决策的自然灵活性使得难以建立一个涵盖所有合理选择的单一地面真实数据；4)决策的异质性，如关于统计模型特定超参数的选择、变量选择、高级方法等，使得决策的表示和抽象变得复杂；5)在多个有效决策和方法的情况下，确定评估智能体分析正确性和合理性的标准和方法的量化难度。

常用场景

经典使用场景

BLADE数据集是一个用于评估语言模型代理在数据驱动科学领域的应用的数据集。它包含12个数据集和研究问题，这些问题来自现有的科学文献。BLADE旨在自动评估代理在开放式研究问题上的多方面方法，并为数据驱动科学提供更深入的见解。

衍生相关工作

BLADE数据集衍生了多个相关的经典工作，包括但不限于开发新的语言模型代理，以更好地支持数据驱动科学。此外，BLADE还可以用于开发新的自动评估方法，以更好地评估代理在数据驱动科学领域的表现。

数据集最近研究