lunaris-data
收藏Lunaris-Data Dataset
数据集详情
- 数据集名称: meryyllebr543/lunaris-data
- 创建者: Meryyllebr543
- 许可证: MIT
- 存储库: Hugging Face Dataset Hub
- 创建日期: 2025年3月14日
概述
Lunaris-Data 是一个高级数据集,专为训练和评估高性能代码生成模型(如 Lunaris Codex Mini,120M 参数)而设计,优化用于高级编程任务、调试和系统设计。
该数据集包含 40,000 个精心设计的示例,涵盖了多种语言、框架和技术领域,通过自定义 Python 管道生成。数据集使用 三个 AI 模型 构建。
预定用途
- 训练用于代码合成、优化和错误处理的模型。
- 开发下一代 AI 编码助手。
- 研究人员探索自动化软件工程。
数据集结构
数据集以 Parquet 格式存储,每个示例包括:
- 输入(input):针对编程、系统、机器学习、密码学或编译器的独特、高质量提示。
- 输出(output):详细的响应,包含代码、解释和最佳实践(约 700-1200 令牌)。
- 代码(code):从输出中提取的代码片段。
- 语言(language):示例的主要语言。
- 上下文(context):技术洞察(仅在 DeepSeek V3 + GPT-4o Mini 示例中存在;Codestral-25.01 示例为 null)。
编程语言
Codestral-25.01 语言
python LANGUAGES = [ "Python", "Java", "C#", "Rust", "Kotlin", "Swift", "PHP", "Scala", "Elixir", "Haskell", "Dart", "Lua", "Go", "TypeScript", "Clojure", "Erlang", "F#", "Racket", "Crystal", "Julia", "Nim", "Zig" ]
DeepSeek V3 语言
python LANGUAGES = ["Python", "JavaScript", "Rust", "TypeScript", "Java", "C++", "Go"]
文件格式
- 格式: Parquet (PyArrow, snappy 压缩)
- 批量大小: 每个文件 1,000 个示例
- 总文件数: 44 (batch_1.parquet 到 batch_44.parquet)
- 总示例数: 44,000
示例条目
json { "input": "Design a Rust real-time processor to aggregate metrics from Kafka topics in Kubernetes, ensuring sub-second latency with windowing.", "output": "Here’s a Rust solution using tokio and rdkafka for real-time metric aggregation:...", "code": "use tokio; async fn aggregate_metrics() {...}", "language": "Rust", "context": null }
使用方法
加载数据集
python from datasets import load_dataset
dataset = load_dataset("meryyllebr543/lunaris-data") print(dataset["train"][0]) # 第一个示例
应用
- 用于代码生成、调试和系统优化的微调。
- 教学工具,用于教授高级编程技术。
- 对 AI 助手在复杂技术任务上的性能进行基准测试。
数据集创建
方法论
-
提示工程:
- 超过 40 个复杂模板,涵盖分布式系统、机器学习、密码学、实时和编译器。
- 确保唯一性和技术深度。
-
结构:
- 输出包括代码、替代方案和详细分析。
- 仅在 DeepSeek V3 + GPT-4o Mini 示例中包含上下文。
统计数据
- 总示例数: 44,000
- 语言: 20+(Python、Rust、JavaScript、Java、C++ 等)
- 提示模板: 40+
- 响应模型: DeepSeek V3、GPT-4o Mini、Codestral-25.01
许可证
根据 MIT 许可证发布。




