SheatNoisette/vlang-poc-dataset
收藏Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/SheatNoisette/vlang-poc-dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
language:
- en
tags:
- code
pretty_name: Proof-Of-Concept Vlang dataset
size_categories:
- n<1K
---
# Vlang Code Dataset
This dataset was a proof-of-concept for code finetuning on [vlang.io](vlang) code as a Q&A format.
It contains partial examples code from:
- V Compiler examples
- V Coreutils
- vglyph
- vsdl
- vsl
- vgui
Compatible with Unsloth Studio Beta.
Most of the Q&A were written by GPT-OSS-120b. A second pass was done on the "vdoc.md"
vdocumentation with Minimax's Minimax-2.7.
## Content
The dataset contains three columns:
- type: Where the data comes from
- question: The synthetic question
- answer: A LLM friendly anwser
The possible values for types are:
- manual: Questions written by hand and rewritten (V compiler, CLI, trivia, v help)
- vdoc: The vdoc.md present in the V compiler repository, second pass with Minimax-2.7
- vlang_examples: Some examples from the V compiler
- vsl_examples: Examples from the VSL
- vgui_examples: Example from VGui
- vglyph_examples: Examples from vglyph
- vcoreutils: Some one file V Coreutils
- vsdl_examples: Some vsdl examples
## Example Details
Here is a list of partial examples import.
V Compiler examples (git 58f18573557247e9c743f7d60e5b3ab783f74479):
- v/examples/*.v
- v/examples/gg
- v/examples/database
- v/examples/linear_regression/
- v/examples/word_counter/
- v/examples/smtp
- v/examples/thread_safety/
- v/examples/web_crawler
- v/examples/graphs
- v/examples/sokoban/
- v/examples/get_weather/
- v/examples/concurrency/
- v/examples/hot_reload/
- v/examples/process/
- v/examples/sokol/01_cubes/
- v/examples/term.ui/
- v/examples/orm/
- v/examples/compiletime
VSDL (git c7b4a451e4aec2dd7538258065c8ad1c8b9df466):
- vsdl/examples/versions/main.v
- vsdl/examples/version/main.v
- vsdl/examples/tvintris/tvintris.v
- vsdl/examples/basic_window/main.v
- vsdl/examples/basic_mixer/basic_mixer.v
- vsdl/examples/basic_image/basic_image.v
VCoreutils (git ac8118538b0a5f7cec68d668923f3c21479f85a6):
- arch.v
- b2sum.v
- base64.v
- basename.v
- cat.v
- comm.v
- cut.v
- dirname.v
- echo.v
- expand.v
- expr.v
- factor.v
- false.v
- fmt.v
- fold.v
- groups.v
- head.v
- id.v
- left_bracket.v
- link.v
- logname.v
- ls.v
- md5sum.v
- mkdir.v
- nl.v
- printenv.v
- printf.v
- pwd.v
- seq.c.v
- sha1sum.v
- sha224sum.v
- sha256sum.v
- sha384sum.v
- sha512sum.v
- shuf.v
- sleep.v
- tac.v
- test.c.v
- true.v
- uname.v
- uptime.c.v
- wc.v
- yes.v
vsl (git 11b57d4e77ffd4bbd4893ee99e3d74ff372ebac8):
- examples/*.v
## Known limitations
There’s a list of problems I observed when testing fine-tuned models on my dataset:
- Underrepresentation of flagparser usage and many other modules, leading to severe hallucinations on vlib
- Missing examples of V compiler corner cases and syntax, models may get small bits of syntax wrong
- Asking about CLI apps may cause the import of the "common" modules from Coreutils, which don't exist on vlib
- Poor data on V compiler CLI usage
- Short and rigid explanations
- Unfiltered code: models may hallucinate authors in code headers, add useless comments, and insert "TODOs"
- No examples of multi-file code and modules, leading to an inability to create multi-file programs
- Poor understanding of tests
- Bias toward writing long files
- Limited knowledge of the libraries used: models may generate code for a library without being able to explain what the library does/is
- No CoT available
- Q&A format
- Some responses clarification contains hallucination
## LLMs used
GPT-OSS-120b was used for a cost saving measure at the risk of high hallucination.
Minimax-2.7 for a second pass as one of "best" available Hallucination/Capability/Cost best overall on OpenRouter (Source: artificial-analysis.ai, AA-Omni test)
## Cost
LLMs used were from OpenRouter, no training policy. These numbers includes testing.
GPT-OSS-120b (non exacto) providers:
- Clarifai
- Google Vertex
- DeepInfra
- SiliconFlow
Minimax 2.7 providers:
- AtlasCloud
- MiniMax
Other data:
- Token used (GPT-OSS-120b 1.95M + Minimax 2.7 355K): 2.31M
- Cost: 0.658$
- API Calls number: GPT-OSS 986, Minimax 160
## License
The projects scrapped at the time were under the MIT License. I do not claim ownership on any of the scrapped code.
提供机构:
SheatNoisette
搜集汇总
数据集介绍

构建方式
在编程语言学习与代码生成领域,vlang-poc-dataset作为概念验证数据集,其构建过程体现了多源数据整合与自动化处理的结合。该数据集主要从V语言生态系统中提取代码示例,涵盖V编译器示例、核心工具、图形库及用户界面库等多个模块。通过采用GPT-OSS-120b模型生成初步的问答对,并利用Minimax-2.7模型对官方文档进行二次加工,形成了结构化的问答格式。数据来源包括手动编写的问答、官方文档以及各类代码库中的实例,确保了内容的多样性与代表性。
特点
该数据集以问答形式组织,包含类型、问题与答案三列,类型字段清晰标注了数据来源,如手动编写、官方文档或特定代码库示例。其内容覆盖了V语言的基础语法、模块应用及实际项目片段,但存在一定的局限性,例如对某些模块的覆盖不足、缺乏多文件代码示例以及可能包含模型生成的幻觉内容。这些特点使得数据集在支持代码生成与理解任务时,既提供了丰富的学习素材,也提示了在使用时需注意的潜在偏差。
使用方法
该数据集适用于代码微调任务,特别是针对V语言的问答与生成场景。用户可将其导入兼容框架如Unsloth Studio Beta,利用其中的问答对训练或评估语言模型。在使用过程中,建议结合数据集的类型标注,筛选特定来源的数据以针对性地提升模型在编译器使用、库函数调用或语法理解等方面的能力。同时,鉴于数据集已知的局限性,用户需谨慎处理模型输出,避免因数据偏差导致的幻觉或错误,并可考虑补充外部数据以增强模型的泛化性能。
背景与挑战
背景概述
在编程语言与人工智能交叉研究领域,针对新兴语言的高质量代码数据集对于推动代码生成与理解模型的发展至关重要。vlang-poc-dataset作为一个概念验证数据集,由开源社区贡献者于近期构建,旨在探索V语言(vlang.io)代码的微调应用。该数据集的核心研究问题聚焦于如何通过问答形式结构化V语言代码示例,以增强大型语言模型对V语言语法、库函数及典型编程范式的掌握能力。其数据来源涵盖V编译器示例、核心工具、图形库及用户界面库等多个模块,为相关研究提供了初步的语料基础,对促进V语言生态的智能化工具开发具有潜在影响力。
当前挑战
该数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域问题上,代码生成任务需克服V语言模块覆盖不全导致的模型幻觉,例如对标志解析器等关键库的认知不足,以及缺乏多文件程序示例引发的结构生成缺陷。构建过程中,依赖GPT-OSS-120b与Minimax-2.7等大型语言模型自动生成问答对,虽控制了成本,却引入了数据噪声与解释僵化的问题,如未过滤的代码注释、作者信息幻觉及缺乏思维链推理支持。此外,数据集的规模有限且代表性不均衡,制约了模型对V语言边界案例与测试代码的深入理解。
常用场景
经典使用场景
在编程语言学习与代码生成领域,vlang-poc-dataset作为一个概念验证数据集,其经典使用场景集中于支持大型语言模型对V语言进行代码微调。该数据集以问答形式组织,涵盖了V编译器示例、核心工具库以及多个V语言库的代码片段,为模型提供了结构化的学习材料。通过这种格式,模型能够学习V语言的语法特性、库函数调用以及常见编程模式,进而生成符合V语言规范的代码回答,助力于自动化代码辅助工具的研发。
解决学术问题
该数据集主要针对代码生成与程序理解中的学术研究问题,特别是在低资源编程语言场景下。它缓解了V语言由于生态新兴而导致的公开训练数据匮乏问题,为研究者提供了高质量的微调样本。通过合成问答对,数据集促进了模型在代码补全、错误检测及API使用等方面的能力评估,推动了编程语言处理领域中对小众语言支持的技术探索,为跨语言代码智能研究奠定了数据基础。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在代码生成模型的优化与评估上。例如,研究者利用其进行领域自适应微调实验,探索如何提升模型在V语言特定库上的表现;同时,该数据集也被用于分析模型在低资源语言上的幻觉问题,推动了代码生成中鲁棒性方法的发展。这些工作不仅扩展了V语言生态的工具链,也为其他新兴编程语言的数据集构建提供了可借鉴的范式。
以上内容由遇见数据集搜集并总结生成



