OpInstruct-HSx

Hugging Face2025-08-14 更新2025-08-15 收录

下载链接：

https://huggingface.co/datasets/Trevor0501/OpInstruct-HSx

下载链接

链接失效反馈

官方服务：

资源简介：

OpInstruct-HSx是一个专门为训练大型语言模型（LLM）在程序合成、语义等价推理和形式验证而设计的 Haskell 函数精选数据集。它源自 NVIDIA 开发的开源代码指令调整的大型 Python 数据集 OpenCodeInstruct，并使用 DeepSeek-R1-Distill-Llama-70B 翻译成 Haskell。每个样本都经过语法正确性、类型安全性和运行时行为的验证，确保为下游任务如 Liquid Haskell 基础上的证明生成和自我博弈学习提供高质量的训练示例。

创建时间：

2025-08-05

原始信息汇总

OpInstruct-HSx 数据集概述

数据集基本信息

许可证: MIT
语言: 英语 (en)
标签: code, synthetic
规模分类: 10K<n<100K
任务分类: text-generation

数据集结构

特征:
- code: 字符串类型
- input: 字符串类型
- status: 字符串类型
- output: 字符串类型
- size: int64类型
数据拆分:
- train: 25,427个样本，大小约6,917,144.77字节
- test: 2,826个样本，大小约768,783.23字节
下载大小: 2,764,663字节
数据集总大小: 7,685,928字节

数据集描述

OpInstruct-HSx是一个经过精心策划的Haskell函数数据集，专为训练大型语言模型（LLMs）在程序合成、语义等价推理和形式验证方面的能力而设计。该数据集源自NVIDIA的大规模指令调整Python数据集OpenCodeInstruct，并使用DeepSeek-R1-Distill-Llama-70B将其翻译成Haskell。每个样本都经过语法正确性、类型安全性和运行时行为的验证，确保为下游任务（如基于Liquid Haskell的证明生成和自我对弈学习）提供高质量的训练示例。

相关资源

代码仓库: https://github.com/TrevorPoon/llm-self-play-liquidhaskell

搜集汇总

数据集介绍

构建方式

OpInstruct-HSx数据集通过系统化的转换流程构建而成，其基础来源于NVIDIA开发的OpenCodeInstruct大规模指令调优Python数据集。采用DeepSeek-R1-Distill-Llama-70B模型进行跨语言转换，将原始Python代码精确转化为Haskell函数实现。每个样本均经过三重验证机制：语法正确性检查通过GHC编译器实现，类型安全性由Haskell静态类型系统保障，运行时行为则通过测试用例验证。这种严谨的构建方法确保了数据集的可靠性，特别适合程序合成和形式化验证等高级研究任务。

使用方法

研究人员可将该数据集直接应用于LLM的指令微调任务，特别适合程序合成和形式化验证方向的模型训练。使用时应加载train分割进行模型参数优化，利用test分割评估模型生成代码的功能正确性。数据中的status字段可辅助构建强化学习奖励机制，output字段则适用于监督学习目标。通过GitHub仓库提供的配套工具链，可进一步扩展为Liquid Haskell证明生成的自对弈训练环境，实现从代码生成到形式化验证的端到端学习框架。

背景与挑战

背景概述

OpInstruct-HSx数据集作为专为大型语言模型设计的Haskell函数集合，诞生于程序合成与形式化验证研究蓬勃发展的时代背景下。该数据集由NVIDIA开源的OpenCodeInstruct Python数据集转化而来，通过DeepSeek-R1-Distill-Llama-70B模型实现跨语言迁移，核心目标在于解决函数式编程语言环境下代码生成、语义等价推理及形式化证明等关键问题。其独特价值体现在严格验证每个样本的语法正确性、类型安全性及运行时行为，为Liquid Haskell等验证框架提供了高质量的基准数据。

当前挑战

构建OpInstruct-HSx面临双重技术挑战：在领域问题层面，函数式编程固有的高阶抽象特性使得程序合成需要处理复杂的类型系统约束和惰性求值语义，而形式化验证更需解决定理自动生成与证明的可判定性问题。在数据集构建过程中，跨语言转换需保持原Python代码的算法逻辑不变性，同时满足Haskell严格的纯函数范式要求，且每个样本需通过三重验证流程，这对自动化转换工具的精确性和验证系统的完备性提出了极高要求。

常用场景

经典使用场景

在程序合成和形式化验证领域，OpInstruct-HSx数据集为研究者提供了高质量的Haskell函数样本，这些样本经过严格的语法正确性、类型安全性和运行时行为验证。该数据集特别适用于训练大型语言模型（LLMs），使其能够生成符合语义等价性要求的代码，并支持基于Liquid Haskell的证明生成任务。通过这一数据集，研究者可以深入探索程序合成中的语义对齐问题。

解决学术问题

OpInstruct-HSx数据集有效解决了程序合成中语义对齐和形式化验证的学术难题。通过提供经过严格验证的Haskell代码样本，该数据集为研究者提供了可靠的基准，用于评估模型在生成类型安全和语义正确代码方面的能力。其意义在于推动了程序合成与形式化方法的结合，为自动化代码生成和验证提供了新的研究范式。

实际应用

在实际应用中，OpInstruct-HSx数据集被广泛用于开发智能编程助手和自动化代码审查工具。基于该数据集训练的模型能够辅助开发者生成高质量的Haskell代码，同时通过形式化验证技术检测潜在的类型错误和语义缺陷。这种应用显著提升了软件开发的效率和可靠性，尤其在需要高安全性的领域如金融和航空航天。

数据集最近研究