five

DaTikZ-V4

收藏
Hugging Face2026-03-17 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/nllg/DaTikZ-V4
下载链接
链接失效反馈
官方服务:
资源简介:
DaTikZ-V4 是一个用于训练 TikZ/LaTeX 图表生成模型(如 TikZilla-3B、TikZilla-8B 等)的数据集,旨在从自然语言描述生成 TikZ/LaTeX 科学图表。数据集包含 10 万到 100 万条样本,数据来源于 ArXiv、GitHub 和 TeXStackExchange 的 TikZ 代码,并使用 Qwen2.5-VL-7B-Instruct 生成对应的科学图表描述。每个样本包含以下字段:唯一标识符 (file_id)、原始标题 (caption)、视觉语言模型生成的详细描述 (vlm_description)、完整的 LaTeX/TikZ 源代码 (tikz_code)、数据来源 (source) 以及渲染后的图表图像 (png_image)。该数据集适用于文本生成任务,特别是科学图表生成、代码生成和 LaTeX 相关应用。
提供机构:
Natural Language Learning Group
创建时间:
2026-03-17
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作