amazon-code-generation

Name: amazon-code-generation
Creator: Collinear AI
Published: 2025-11-11 08:56:51
License: 暂无描述

Hugging Face2025-11-11 更新2025-11-12 收录

下载链接：

https://huggingface.co/datasets/collinear-ai/amazon-code-generation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两种配置：重写问题（rephrased_questions）和开放思考重写问题（rephrased_questions_openthoughts）。每种配置都有多个字段，包括问题、深层次推理、深层次解决方案、真实解决方案、领域、来源、测试用例、起始代码、消息（包括内容和角色）、令牌数量、重写问题和模型响应等。数据集提供了一个训练集split，包含相应的文件大小和示例数量。数据集的下载大小和总大小也提供了。

提供机构：

Collinear AI

创建时间：

2025-11-11

原始信息汇总

Amazon Code Generation 数据集概述

数据集基本信息

数据集名称：Amazon Code Generation
配置数量：2个
总下载大小：1.11 MB
总数据集大小：2.38 MB

配置详情

配置1：rephrased_questions

训练集样本数量：2个
训练集大小：125.31 KB
下载大小：98.98 KB

特征字段

problem：字符串类型
deepseek_reasoning：字符串类型
deepseek_solution：字符串类型
ground_truth_solution：字符串类型
domain：字符串类型
source：字符串类型
test_cases：字符串类型
starter_code：字符串类型
messages：列表类型
- content：字符串类型
- role：字符串类型
num_tokens：整型
rephrased_question：字符串类型
model_response：字符串类型
rubric：字符串列表类型

配置2：rephrased_questions_openthoughts

训练集样本数量：25个
训练集大小：2.20 MB
下载大小：1.07 MB

特征字段

problem：字符串类型
deepseek_reasoning：字符串类型
deepseek_solution：字符串类型
ground_truth_solution：字符串类型
domain：字符串类型
source：字符串类型
test_cases：字符串类型
starter_code：字符串类型
messages：列表类型
- content：字符串类型
- role：字符串类型
num_tokens：整型
rephrased_question：字符串类型
model_response：字符串类型
rubric：字符串列表类型

数据文件结构

rephrased_questions配置：rephrased_questions/train-*
rephrased_questions_openthoughts配置：rephrased_questions_openthoughts/train-*

搜集汇总

数据集介绍

构建方式

在编程教育领域，amazon-code-generation数据集通过系统化收集与重构编程问题构建而成。该数据集包含两个配置版本：rephrased_questions和rephrased_questions_openthoughts，分别涵盖2个和25个训练样本。每个样本整合了原始问题描述、深度推理过程、多版本解决方案及测试用例，并通过结构化字段如领域分类和代码框架实现数据标准化。数据来源标注清晰，确保样本的溯源性，其构建过程注重问题表述的多样性与解决方案的完整性。

使用方法

研究者可通过HuggingFace平台直接加载数据集的两个配置版本，分别对应基础重构问题和增强型思维链版本。使用时应根据特征字段进行任务设计：利用问题描述和消息序列构建对话式编程助手，通过对比标准答案与模型输出评估生成质量。测试用例字段支持自动化验证，评分标准则为人工评估提供依据。该数据集适用于编程教育、代码生成模型训练及自然语言到代码的转换研究等多个方向。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成技术正逐步重塑编程范式。Amazon-code-generation数据集作为该领域的重要资源，聚焦于通过自然语言描述自动生成可执行代码的核心任务。该数据集整合了多维度编程问题与深度推理过程，其结构化设计囊括问题描述、参考解决方案、测试用例及评估标准等关键元素，旨在推动智能编程助手与自动化代码生成系统的演进。

当前挑战

代码生成领域长期面临语义理解与逻辑保真度的双重考验，需精准转化自然语言意图为语法严谨的程序代码。数据集构建过程中，需协调领域知识覆盖广度与标注质量间的平衡，确保测试用例能有效验证代码功能完整性。多轮对话语境下的意图连贯性维护与代码可执行性验证，构成了数据采集与标注体系的核心难点。

常用场景

经典使用场景

在人工智能与软件工程交叉领域，Amazon-Code-Generation数据集为代码生成模型的训练与评估提供了标准化基准。该数据集通过包含问题描述、推理过程、解决方案及测试用例等结构化字段，典型应用于大语言模型在编程任务中的性能验证。研究者能够系统分析模型从自然语言需求到可执行代码的转换能力，尤其在处理多领域编程问题时展现出重要价值。

解决学术问题

该数据集有效解决了代码生成领域缺乏高质量并行语料的学术困境。通过提供经过重构的问题表述与标准答案对照，显著提升了模型在语义理解与逻辑推理方面的可解释性研究。其包含的领域分类与测试用例体系，为衡量模型泛化能力与鲁棒性建立了量化标准，推动了编程教育智能化与自动化软件工程的基础理论发展。

实际应用

在工业实践层面，该数据集支撑着智能编程助手的核心功能开发。基于其构建的代码生成系统可应用于企业级开发环境，实现需求文档到原型代码的自动转换。教育机构则借助该数据集开发自适应编程教学系统，通过分析学习者的解题路径提供个性化指导。其测试用例机制更可直接集成至持续集成流程，验证生成代码的功能完备性。

数据集最近研究