namakoo/idfu-ofi-vpin-specialty
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/namakoo/idfu-ofi-vpin-specialty
下载链接
链接失效反馈官方服务:
资源简介:
IDFU OFI/VPIN(量化交易)专业包是一个专注于高级订单流不平衡和微观结构分析的Python代码失败检测数据集,专为量化交易/金融科技领域设计。该数据集包含98个样本,每个样本包含Python源代码、失败类型(语法/运行时/逻辑等)、失败类别、失败详情、错误日志和原始任务描述。数据集经过严格的质量控制流程,包括AST规范化去重、静态lint检查、容器化执行和pytest测试等。该数据集适合用于训练特定领域的错误分类器、DPO拒绝侧训练数据、代码审查模型微调以及该领域的基准增强。
The IDFU OFI/VPIN (Quant Trading) Specialty Pack is a Python failure dataset focused on Advanced_Order_Flow_Imbalance_and_Microstructure_Analysis, designed for the quant trading/fintech domain. This dataset contains 98 samples, each including Python source code, failure type (syntax/runtime/logical etc.), failure category, failure detail, error log, and original task instruction. The dataset has undergone rigorous quality assurance including α-normalized AST deduplication, static lint checks, containerized Python execution, and pytest testing. Its suitable for training domain-specific error classifiers, DPO rejected-side training, code review model fine-tuning, and benchmark augmentation for the focus domain.
提供机构:
namakoo
搜集汇总
数据集介绍

构建方式
该数据集隶属于IDFU Code Failure Dataset家族,专注于量化交易领域中的高级订单流不平衡与微观结构分析。数据集通过严格的验证流水线构建,包括α归一化AST哈希去重以消除表面重复、静态代码检查门控(如死函数、缺失输入防护等)、容器化Python执行与pytest测试框架,以及专有的内部QA流程。所有样本均源自真实执行失败记录,而非大语言模型虚构的bug,确保了数据的生态效度。
特点
数据集的核心特色在于其高度专业化——98个样本全部聚焦于OFI/VPIN(量化交易)领域,覆盖了真实的VPIN聚合错误、微观结构数据操作陷阱(如pandas弃用警告)及订单流数值边界案例。每一样本均配原始任务指令,可直接用作DPO拒绝侧数据。采用v3.0质量认证架构,哈希完全去重且不与主版本重叠,兼具低风险入门(9美元试购)与跨领域扩展性。
使用方法
使用者可通过HuggingFace仓库免费预览10个代表性样本(data_sample.jsonl)以评估数据适配性。购买完整98样本包后,将获取JSONL及Parquet格式文件、质量证书与统计信息。数据集适用于量化金融Python错误分类器的训练、引导代码生成模型规避微观结构逻辑缺陷的DPO拒绝侧数据,以及订单流/VPIN参考实现的基准增强。注意需配合正向数据集使用,不建议用于初学者编程教学或生产软件测试。
背景与挑战
背景概述
在量化交易与金融市场微观结构分析领域,代码逻辑的精确性直接影响策略的表现与风险控制,而高级订单流不平衡(Order Flow Imbalance, OFI)与成交量加权价格区间(VPIN)等微观结构指标的实现尤为复杂。IDFU OFI / VPIN (Quant Trading) Specialty Pack 数据集由 namakoo 团队于 2024 年创建,聚焦于量化交易中 Python 代码失效模式的检测与分类,属于 IDFU 代码失效数据集系列的低成本入门产品。该数据集包含 98 个样本,覆盖高级订单流与微观结构分析领域,旨在为金融科技从业者提供针对性的错误分类器训练、DPO 偏好对齐中拒绝侧数据构建以及代码审查模型微调等任务的支持。作为单领域专精数据包,它不仅为量化交易代码的鲁棒性研究提供了稀缺的失败案例资源,也通过 10 样本免费预览机制降低了使用门槛,推动了代码失效检测技术在垂直金融领域的实践应用。
当前挑战
该数据集所应对的核心挑战在于量化交易代码中微观结构逻辑的脆弱性,例如 VPIN 聚合中的成交量桶边界错误、等量切片测试失败、pandas 弃用 API 误用以及订单流数值边界条件处理不当等问题,这些高度领域化的 bug 难以被通用代码验证数据集覆盖。在构建过程中,IDFU 面临的困难包括:如何通过 α 归一化 AST 哈希去重确保数据唯一性,如何在容器化执行中获取真实 pytest 运行时失败日志而非 LLM 伪造错误,以及如何在保持 19 领域通用性的同时产出一个 100% 聚焦于单一量化交易子领域的高质量子集。此外,数据集规模仅 98 样本,如何在小样本条件下维持验证管道的严格性(涵盖静态 lint 门控、指令质量过滤及专有 QA 流水线)亦是重要挑战。
常用场景
经典使用场景
IDFU OFI / VPIN (Quant Trading) Specialty Pack 专为量化金融与微观结构分析领域设计,其经典使用场景聚焦于对订单流不平衡(Order Flow Imbalance)与成交量比例指示器(VPIN)相关的Python代码进行错误分类与训练。该数据集包含98个高质量样本,每个样本均附有原始任务指令、执行失败日志及精细化的错误分层标签(如语法、运行时、逻辑、语义等),使其成为训练面向量化交易领域的错误检测分类器、代码生成模型偏好优化(特别是DPO中的负例侧)以及基准测试增强的理想起点。尤其适合在单GPU上数小时内完成的小型低风险实验,为量化金融代码的鲁棒性评估提供了精准且专业的数据支撑。
解决学术问题
该数据集主要解决了量化金融与微观结构分析领域中Python代码的领域特异性错误识别问题。学术界长期面临通用代码错误数据集在金融专属模式(如VPIN聚合边界错误、pandas弃用陷阱、订单流数值边界条件)上覆盖不足的困境,导致代码生成模型在该领域的可靠性难以验证。通过提供经容器化执行与pytest测试框架验证的真实执行失败样本,该数据集填补了量化金融代码错误类型的标注空白,为研究代码生成模型在专业领域的失败模式、偏好对齐方法(如DPO)的迁移效果以及错误分类器的领域适应能力提供了可信的基准资源,推动了算法交易系统代码质量评估的精细化发展。
衍生相关工作
该数据集作为IDFU系列在量化金融领域的专注性扩展,衍生了一系列相关研究工作。其姊妹版本如IDFU Vector Search Specialty、IDFU CPython Bytecode Specialty及IDFU Generalization (Transformers) Specialty共同构成了多领域的代码错误样本库,推动了跨领域代码生成与错误检测的对比研究。基于该数据集,研究者已开展DPO基准测试,在Qwen2.5-Coder-3B-Instruct模型上使用500个蒙特卡洛领域样本(同系列v2版本)取得了HumanEval上+3.46个百分点(80.5%→83.94%)的pass@1显著提升,验证了真实执行失败数据在代码模型偏好优化中的有效性。此外,该数据集的非重叠哈希去重机制与α归一化AST清洗方法,为后续大规模代码错误数据集的构建提供了方法论参考。
以上内容由遇见数据集搜集并总结生成



