five

Vega-Lite Troubleshooting Dataset

收藏
github2024-12-11 更新2024-12-12 收录
下载链接:
https://github.com/HKUSTDial/vistroubleshooting.github.io
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集从Stack Overflow收集了889个与Vega-Lite相关的案例,用于研究可视化故障排除中人类和AI辅助支持的有效性。数据集包括原始案例、故障排除相关案例、带有有效答案代码的案例以及带有文档和示例的案例。

This dataset compiles 889 Vega-Lite-related cases sourced from Stack Overflow, aiming to investigate the effectiveness of human and AI-assisted support in visualization troubleshooting. The dataset includes original cases, troubleshooting-related cases, cases with valid answer code, as well as cases with documentation and examples.
创建时间:
2024-12-02
原始信息汇总

数据集概述

数据集简介

该数据集用于研究可视化调试中人类辅助和AI辅助两种方法的效果。通过分析来自Stack Overflow的889个Vega-Lite相关案例,探讨了两种方法在可视化调试中的有效性。

数据集内容

数据集包含以下几个部分:

  1. 原始数据

    • 1_All_cases/:包含889个来自Stack Overflow的原始案例。
  2. 调试相关案例

    • 2_Troubleshooting_cases/:包含758个与调试相关的案例。
  3. 有效代码案例

    • 3_validCode_cases/:包含288个带有有效答案代码的案例。
  4. 文档和示例案例

    • 4_DocEx_cases/:包含47个带有文档和示例的案例。

数据集用途

数据集用于回答以下四个研究问题:

  1. Q1:用户在问答论坛中常见的问题类型是什么?
  2. Q2:论坛中的回答如何有效解决用户的问题?
  3. Q3:LLMs(大语言模型)在相同问题上的调试支持能达到何种程度?
  4. Q4:补充资源(如文档和示例库)如何影响LLMs辅助的有效性?

数据集结构

数据集的目录结构如下:

  • dataset/:包含所有数据集文件。
    • 1_All_cases/:原始889个Stack Overflow案例。
    • 2_Troubleshooting_cases/:758个调试相关案例。
    • 3_validCode_cases/:288个带有有效答案代码的案例。
    • 4_DocEx_cases/:47个带有文档和示例的案例。

实验代码

数据集附带了用于分析和实验的代码,包括:

  • Q1:问题分类相关代码。
  • Q2:操作分类和代码复杂度相关代码。
  • Q3:LLMs实验相关代码。
  • Q4:文档和示例实验相关代码。

环境配置

  • Python版本:3.9.17
  • 依赖安装:pip install -r requirements.txt
  • 环境变量配置:在根目录下创建.env文件,配置OPENAI_API_KEYOPENAI_BASE_URL

使用方法

  1. 运行问题分类分析:python Q1/Code/Generate_Question.py
  2. 运行操作分类分析:python Q2/Operation_classfication/Code/Generate_Operation.py
  3. 运行L0实验:python Q3/experiement/L0_experiement.py
  4. 运行L1和L2实验:python Q4/experiement/L1_experiement_document.py等。
  5. 生成可视化结果:python execute_PNG_Code/direct_execute_Vega_PNG.py

引用

bibtex @misc{2412.07673, Author = {Shuyu Shen and Sirong Lu and Leixian Shen and Zhonghua Sheng and Nan Tang and Yuyu Luo}, Title = {Ask Humans or AI? Exploring Their Roles in Visualization Troubleshooting}, Year = {2024}, Eprint = {arXiv:2412.07673}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在构建Vega-Lite Troubleshooting Dataset时,研究团队从Stack Overflow平台爬取了889个与Vega-Lite相关的案例,每个案例包含问题描述及其最佳答案。通过对这些数据进行筛选和处理,最终提取出758个与故障排查相关的案例,并进一步验证和提取了288个包含有效答案代码的案例。此外,为了研究外部资源对LLM(大型语言模型)辅助故障排查的影响,团队还增强了47个案例,结合了文档和示例资源。
特点
Vega-Lite Troubleshooting Dataset的显著特点在于其真实性和多样性。数据集涵盖了从Stack Overflow收集的889个真实案例,经过严格筛选和处理,确保了数据的实用性和代表性。此外,数据集还区分了不同类型的案例,如故障排查相关案例、包含有效代码的案例以及结合文档和示例的案例,为研究人机协同在可视化故障排查中的作用提供了丰富的资源。
使用方法
使用Vega-Lite Troubleshooting Dataset时,用户可以通过运行提供的Python脚本进行数据分析和实验。例如,通过执行`Generate_Question.py`脚本可以进行问题分类分析,而`L0_experiement.py`脚本则用于评估LLM在故障排查中的表现。此外,数据集还提供了生成可视化结果的代码,用户可以通过`direct_execute_Vega_PNG.py`脚本生成Vega-Lite的PNG图像。
背景与挑战
背景概述
可视化创作过程中,由于复杂的参数调整,用户常常需要故障排除支持。Vega-Lite Troubleshooting Dataset 由Shuyu Shen等人于2024年创建,旨在探讨人类与人工智能在可视化故障排除中的角色。该数据集通过分析来自Stack Overflow的889个Vega-Lite案例,研究了两种故障排除方法:人类辅助支持(如通过论坛)和AI辅助支持(使用大型语言模型)。研究的核心问题包括用户在论坛中常见的问题类型、人类回答的有效性、LLMs在故障排除中的表现及其对辅助资源的依赖性。该数据集的发布为可视化领域的研究提供了宝贵的资源,有助于深入理解人类与AI在复杂任务中的协作潜力。
当前挑战
Vega-Lite Troubleshooting Dataset面临的挑战主要集中在两个方面。首先,数据集构建过程中,如何从Stack Overflow中筛选出与故障排除相关的有效案例,并确保这些案例能够准确反映用户在可视化创作中的实际问题,是一个复杂的过程。其次,评估人类和AI在故障排除中的表现时,如何量化回答的质量和实用性,以及如何衡量辅助资源对AI解决方案的影响,都是需要解决的关键问题。此外,确保数据集的多样性和代表性,以便能够全面覆盖用户在可视化创作中可能遇到的各种问题,也是该数据集面临的重要挑战。
常用场景
经典使用场景
Vega-Lite Troubleshooting Dataset 主要用于探索和比较人类与人工智能在可视化调试中的角色和效果。该数据集通过分析来自 Stack Overflow 的 889 个 Vega-Lite 相关案例,揭示了用户在可视化创作过程中遇到的常见问题,如语法错误和设计问题。这些数据为研究如何更有效地提供调试支持提供了宝贵的资源,尤其是在评估人类和 AI 在解决这些问题上的表现时。
实际应用
在实际应用中,Vega-Lite Troubleshooting Dataset 可用于开发和优化可视化工具的调试功能,帮助用户更高效地解决创作过程中遇到的问题。此外,该数据集还可用于训练和评估 AI 模型,使其能够更准确地识别和修复可视化代码中的错误,从而提升用户体验和工具的实用性。
衍生相关工作
基于 Vega-Lite Troubleshooting Dataset,研究者们可以进一步探索如何结合人类和 AI 的优势,开发出更智能和高效的可视化调试工具。此外,该数据集还可用于研究如何通过整合外部资源(如文档和示例库)来提升 AI 模型的调试能力,从而为可视化领域的技术创新提供新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作