five

vtikz-evaluation

收藏
Hugging Face2025-05-07 更新2025-05-08 收录
下载链接:
https://huggingface.co/datasets/CharlyR/vtikz-evaluation
下载链接
链接失效反馈
官方服务:
资源简介:
这个数据集包含了多个配置,每个配置都有不同的数据集,包含了难度等级、代码片段、指令、解决方案和各种指标。数据集被分为不同的类别,主要是'tikz',每个类别都有指定的示例数量和字节大小。文件还包含了每个配置的数据文件路径。
创建时间:
2025-04-24
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称: vtikz-evaluation
  • 数据集地址: https://huggingface.co/datasets/CharlyR/vtikz-evaluation
  • 配置数量: 12个独立配置

数据集配置详情

1. FAR_benchmark_llama3.370bversatile_pk_5_t_0.7_v1.0

  • 特征:
    • difficulty_ast, id, code, commented_code, instruction, result_description, difficulty, modification_type, type, patch, template_solution_code, code_solution, image_solution, image_input, original_predictions, predictions, image_result_indexes, images_result, parsing_score, compiling_score, predictions_patches, LineMetric, ImageEqualityMetric, TemplateMetric, CrystalBleuPatchMetric
  • 数据分割:
    • tikz: 100个样本,18.3MB
  • 下载大小: 7.1MB
  • 数据集大小: 18.3MB

2. VIF_benchmark_llama3.370bversatile_t_0.0_search_gemini2.0flash_t_0.0_identification_gemini2.0flash_t_0.3_v1.0

  • 特征: 同配置1
  • 数据分割:
    • tikz: 100个样本,8.6MB
  • 下载大小: 5.9MB
  • 数据集大小: 8.6MB

3. simpleLLM_benchmark_deepseekr1distillllama70b_pk_1_t_0.7_v1.0

  • 特征: 同配置1
  • 数据分割:
    • tikz: 100个样本,8.6MB
  • 下载大小: 5.8MB
  • 数据集大小: 8.6MB

4. simpleLLM_benchmark_deepseekr1distillllama70b_pk_5_t_0.7_v1.0

  • 特征: 同配置1
  • 数据分割:
    • tikz: 100个样本,16.4MB
  • 下载大小: 8.5MB
  • 数据集大小: 16.4MB

5. simpleLLM_benchmark_deepseekr1distillllama70b_pk_5_t_1.5_v1.0

  • 特征: 同配置1
  • 数据分割:
    • tikz: 100个样本,15.6MB
  • 下载大小: 8.3MB
  • 数据集大小: 15.6MB

6. simpleLLM_benchmark_gpt4o20240806_pk_5_t_0.7_v1.0

  • 特征: 同配置1
  • 数据分割:
    • tikz: 100个样本,18.7MB
  • 下载大小: 10.8MB
  • 数据集大小: 18.7MB

7. simpleLLM_benchmark_llama3.18binstant_pk_1_t_0.7_v1.0

  • 特征: 同配置1
  • 数据分割:
    • tikz: 100个样本,8.3MB
  • 下载大小: 5.5MB
  • 数据集大小: 8.3MB

8. simpleLLM_benchmark_llama3.370bversatile_pk_1_t_0.7_v1.0

  • 特征: 同配置1
  • 数据分割:
    • tikz: 100个样本,8.6MB
  • 下载大小: 5.8MB
  • 数据集大小: 8.6MB

9. simpleLLM_benchmark_llama3.370bversatile_pk_5_t_0.7_v1.0

  • 特征: 同配置1
  • 数据分割:
    • tikz: 100个样本,18.5MB
  • 下载大小: 8.4MB
  • 数据集大小: 18.5MB

10. simpleLLM_benchmark_llama370b8192_pk_1_t_0.7_v1.0

  • 特征: 同配置1
  • 数据分割:
    • tikz: 100个样本,8.6MB
  • 下载大小: 5.8MB
  • 数据集大小: 8.6MB

11. simpleLLM_test_mixtral8x7b32768_pk_1_t_0.7_v1.0

  • 特征: 同配置1
  • 数据分割:
    • tikz: 2个样本,193KB
  • 下载大小: 238KB
  • 数据集大小: 193KB

12. simpleLMM_benchmark_gpt4o20240806_pk_5_t_0.7_v1.0

  • 特征: 同配置1
  • 数据分割:
    • tikz: 100个样本,18.8MB
  • 下载大小: 10.5MB
  • 数据集大小: 18.8MB

数据特征说明

所有配置包含以下共同特征:

  • 代码相关: code, commented_code, template_solution_code, code_solution, patch
  • 图像相关: image_solution, image_input, images_result
  • 评估指标: parsing_score, compiling_score, LineMetric, ImageEqualityMetric, TemplateMetric, CrystalBleuPatchMetric
  • 元数据: id, instruction, result_description, difficulty, modification_type, type
  • 预测数据: original_predictions, predictions, predictions_patches
搜集汇总
数据集介绍
main_image_url
构建方式
在数据科学和机器学习领域,vtikz-evaluation数据集的构建体现了对多模态数据处理的深度探索。该数据集通过整合代码、图像及多种评估指标,采用结构化配置方式组织数据。每个配置单元包含100个样本,涵盖代码解析、编译结果及图像生成效果等维度,通过难度分级和修改类型标注实现细粒度分类。数据采集过程融合了多种大语言模型的预测结果,确保数据源的多样性和前沿性。
特点
该数据集最显著的特点在于其多维度的评估体系,不仅包含传统的代码度量如解析分数和编译分数,还创新性地引入了图像相似度比较指标。数据条目同时保存原始代码、注释代码及对应的图像输出,形成完整的输入-输出对。特别设计的LineMetric、ImageEqualityMetric等专业评估指标,为研究者提供了从语法到视觉效果的全面分析工具。不同配置版本间参数的差异化设置,则为模型性能比较创造了理想条件。
使用方法
研究者可通过加载特定配置名称访问不同实验条件下的数据子集,每个子集包含完整的代码-图像对及评估结果。典型应用场景包括:使用code_solution字段验证模型输出准确性,通过images_result分析视觉生成效果,或利用各类Metric指标进行量化评估。数据集的层次化结构支持横向比较不同参数设置下的模型表现,而图像与代码的关联存储则为多模态学习研究提供了便利。预处理时需注意不同配置版本间的参数差异对结果的影响。
背景与挑战
背景概述
vtikz-evaluation数据集是近年来在计算机视觉与程序生成交叉领域涌现的重要基准测试工具,主要针对TikZ代码生成与图像渲染的评估任务。该数据集由多个技术团队联合构建,其核心研究目标在于解决复杂可视化场景下代码生成模型的性能量化问题。通过整合代码解析度评分、编译成功率、图像相似度等多维度指标,该数据集为评估大语言模型在图形编程领域的综合能力提供了标准化测试环境,对推动程序合成与计算机视觉的融合发展具有显著意义。
当前挑战
该数据集面临的核心挑战主要体现在两方面:在领域问题层面,如何精准量化生成代码与预期可视化效果之间的差异成为关键难题,需设计兼顾语法正确性和语义等效性的评估指标;在构建过程中,多模态数据对齐存在显著技术瓶颈,包括代码片段与渲染图像的时间同步、不同编译器版本导致的渲染差异处理,以及大规模图像相似度计算带来的算力开销问题。
常用场景
经典使用场景
在计算机视觉与程序生成交叉领域,vtikz-evaluation数据集通过整合TikZ代码与对应渲染图像,为评估大语言模型在图形生成任务中的表现提供了标准化测试平台。其多模态特性使得研究者能够同时分析代码结构准确性与视觉输出质量,特别适用于测试模型对复杂几何图形的理解和生成能力。
实际应用
在教育科技领域,该数据集可驱动智能绘图辅导系统的开发,通过比对学生代码与标准解决方案的差异提供实时反馈。在科研绘图自动化方向,其基准测试结果能指导选择最适合学术图表生成的AI模型,显著提升科研工作者创建精确技术插图的效率。
衍生相关工作
基于该数据集衍生了多个图形生成领域的创新研究,包括TikZ代码的语法纠错模型、多模态指令微调框架以及视觉-代码联合嵌入方法。其中最具代表性的是采用对比学习策略的ViTikZ模型,其在保持代码语义一致性的同时显著提升了生成图形的视觉保真度。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作