DV-World

github2026-04-29 更新2026-04-30 收录

下载链接：

https://github.com/DA-Open/DV-World

下载链接

链接失效反馈

官方服务：

资源简介：

DV-World数据集专注于在真实世界场景中评估数据可视化代理。它包括三个主要部分：DV-Sheet专注于原生电子表格可视化工作流程，DV-Evolution针对跨模态和跨框架的可视化适应，DV-Interact评估在模糊可视化任务中的主动澄清和意图对齐。

The DV-World dataset is dedicated to evaluating data visualization agents in real-world scenarios. It comprises three core components: DV-Sheet focuses on native spreadsheet-driven visualization workflows, DV-Evolution targets cross-modal and cross-framework visualization adaptation, and DV-Interact assesses active clarification and intent alignment in ambiguous visualization tasks.

创建时间：

2026-04-15

原始信息汇总

DV-World 数据集概述

DV-World 是一个用于在真实场景中评估数据可视化智能体的基准数据集。该数据集包含三个核心任务分支，旨在测试智能体在可视化工作流中的不同能力。

数据集构成

DV-World 数据集由以下三个子任务组成：

DV-Sheet

专注于原生电子表格可视化工作流。智能体需直接操作电子表格工作簿，完成创建图表、修复损坏的可视化以及组装仪表盘等任务，且所有操作均在真实的软件约束下进行。

DV-Evolution

针对跨模态与跨框架的可视化适配。给定一个参考视觉制品、一个新数据集以及修改需求，智能体需推断原始视觉语义，并在目标框架（如 Python、D3.js、Plotly.js、Vega-Lite 或 Apache ECharts）中生成可执行的可视化结果。

DV-Interact

评估在模糊可视化任务中的主动澄清与意图对齐能力。智能体需在状态化环境中与用户模拟器交互，测试其能否提出适当问题、通过交互解决歧义，以及避免基于假设直接执行。

数据集规模与来源

数据集发布于 Hugging Face，地址为：https://huggingface.co/datasets/DV-World/dvworld
论文已发布在 arXiv，编号为 2604.25914

平台与运行环境

DV-Evolution 和 DV-Interact 可在标准 Python 环境中运行。
DV-Sheet 需在 Windows 系统上运行，因为其评估过程依赖 Excel 相关工作流。

评估方法

评估按任务分支组织，位于 evaluation_suite 目录下。每个子任务有专用的评估脚本：

evaluation_suite/dv_evolution/run_eval.py
evaluation_suite/dv_interact/run_eval.py
evaluation_suite/dvsheet_create/run_eval.py
evaluation_suite/dvsheet_dashboards/run_eval.py
evaluation_suite/dvsheet_fix/run_eval.py

转换后的候选输出放置在 evaluation_suite/results/<run_name> 目录下，评估结果写入 evaluation_suite/model_score/<run_name> 目录。

快速使用

创建 Python 3.12 环境并安装依赖：pip install -r requirements.txt
从 Hugging Face 下载数据集，将文件放入对应的 gold 和 tasks 文件夹下。
在每个任务分支的代理目录中，通过 dvworld_agent_fcmode/agent/config.py 配置模型。
使用 run.py 运行智能体，使用 get_results.py 转换输出格式，最后使用匹配的评估脚本进行评分。

搜集汇总

数据集介绍

构建方式

DV-World数据集面向真实世界的数据可视化场景，精心构建了三个子任务体系：DV-Sheet聚焦于原生电子表格工作流，要求智能体在软件约束下直接操作工作簿以创建图表、修复可视化缺陷并组装仪表板；DV-Evolution致力于跨模态与跨框架的可视化迁移，给定参考视觉制品、新数据集及修改需求，智能体需推断原始视觉语义并在Python、D3.js、Plotly.js、Vega-Lite或Apache ECharts等目标框架中生成可执行的可视化；DV-Interact则评估智能体在模糊可视化任务中的主动澄清与意图对齐能力，通过与用户模拟器进行状态化交互来检验其提问、消歧和避免预设执行的策略。

使用方法

使用DV-World数据集分为准备、运行与评估三个阶段。首先，从Hugging Face下载数据集，并将文件分别存放于各子任务对应的gold和tasks文件夹中。随后，在对应的智能体目录下配置模型参数，通过运行run.py启动基线智能体。执行完成后，利用get_results.py将原始输出转换为标准评估格式，接着使用evaluation_suite中对应子任务的评估脚本（如dv_evolution/run_eval.py）进行打分。需注意，DV-Sheet相关任务的评估需在Windows环境下进行，因其依赖于Excel工作流。最终，评估结果会写入model_score目录，便于研究者横向对比与提交至排行榜。

背景与挑战

背景概述

DV-World数据集由中国科学院自动化研究所及多所高校的研究团队于2026年联合创建，旨在系统性地评估数据可视化智能体在真实世界场景中的表现。该研究团队由Jinxiang Meng、Shaoping Huang等学者领衔，核心研究问题聚焦于现有大语言模型驱动的智能体在复杂、多模态及交互式可视化任务中的能力边界。数据集包含三个核心子集：DV-Sheet专注于原生电子表格可视化工作流，DV-Evolution针对跨模态与跨框架的代码迁移与适配，DV-Interact则考察智能体在模糊需求下的主动澄清与意图对齐能力。作为该领域的首个综合性基准，DV-World填补了可视化智能体缺乏标准化评估体系的空白，推动了数据可视化自动化研究从简单生成走向真实场景的深度应用。

当前挑战

该数据集面临的核心挑战源于三个维度。在领域问题层面，现有可视化智能体往往仅能完成从数据到图表的简单映射，难以应对电子表格中的复杂操作、跨框架代码迁移时的语义保留以及用户意图模糊时的主动互动决策。在构建过程中，研究团队需要为每个子集设计真实且可复现的任务：DV-Sheet需模拟Excel等软件中的环境约束，DV-Evolution需构建多框架间的等价可视化语义转换逻辑，而DV-Interact则需建立合理的用户模拟器以平衡问题交互与任务完成效率。此外，各子集在不同操作系统下的兼容性差异（如DV-Sheet依赖Windows环境）进一步增加了评估复现的难度，对基准的通用性形成了制约。

常用场景

经典使用场景

在数据可视化领域，智能体通常被局限于独立的代码生成任务，而鲜少面对真实世界中复杂的软件环境与交互约束。DV-World数据集应运而生，它由三大子集构成：DV-Sheet聚焦于原生电子表格环境下的可视化工作流，要求智能体直接操作工作簿以创建图表、修复损坏的可视化并组装仪表盘；DV-Evolution则面向跨模态与跨框架的可视化适配，智能体需从参考视觉制品中推衍语义，并在Python、D3.js、Plotly.js、Vega-Lite或Apache ECharts等目标框架中生成可执行可视化；DV-Interact评估智能体在歧义任务中的主动澄清与意图对齐能力，通过与用户模拟器的交互来检验其提问质量与歧义消解策略。这些场景共同构成了对数据可视化智能体在真实工作环境中的全面考核。

解决学术问题

DV-World的诞生有效填补了现有可视化基准在真实性与交互性方面的显著空白。传统评估大多集中于单一代码生成，忽略了软件约束、跨模态迁移与歧义消解等核心挑战。该数据集首次提出了从电子表格操作到多框架适配、再到交互式澄清的分层评估框架，系统性地解决了智能体在可视化任务中缺乏标准化评测的问题。其意义在于，推动学术界从静态输出评价转向动态过程评估，促使研究者关注智能体在真实软件生态中的鲁棒性、可迁移性与人机协同能力。通过揭示当前主流模型在复杂工作流中的不足，DV-World为构建更实用、更自主的数据可视化智能体提供了关键基准与研究方向。

实际应用

在实际应用中，DV-World所涵盖的场景直接映射了数据科学家与分析师日常面对的核心痛点。DV-Sheet部分适用于企业环境中广泛使用的Excel或Google Sheets等电子表格工具，帮助智能体自动化完成月度报表生成、图表纠错与仪表盘搭建，极大提升办公效率。DV-Evolution则为跨团队协作提供了技术支撑，例如将旧版Python可视化脚本迁移至交互式Plotly仪表盘，或复用D3.js作品至ECharts平台，降低了技术栈替换成本。DV-Interact的应用潜力体现在咨询与辅助决策系统中，当用户需求表述模糊时，智能体能主动提问以厘清意图，而非盲目执行，从而减少返工风险。这些能力使DV-World成为连接前沿AI研究与实际数据工作流的桥梁，具有广泛的产业价值。

数据集最近研究