five

amazon-code-generation

收藏
Hugging Face2025-11-11 更新2025-11-12 收录
下载链接:
https://huggingface.co/datasets/collinear-ai/amazon-code-generation
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两种配置:重写问题(rephrased_questions)和开放思考重写问题(rephrased_questions_openthoughts)。每种配置都有多个字段,包括问题、深层次推理、深层次解决方案、真实解决方案、领域、来源、测试用例、起始代码、消息(包括内容和角色)、令牌数量、重写问题和模型响应等。数据集提供了一个训练集split,包含相应的文件大小和示例数量。数据集的下载大小和总大小也提供了。
提供机构:
Collinear AI
创建时间:
2025-11-11
原始信息汇总

Amazon Code Generation 数据集概述

数据集基本信息

  • 数据集名称:Amazon Code Generation
  • 配置数量:2个
  • 总下载大小:1.11 MB
  • 总数据集大小:2.38 MB

配置详情

配置1:rephrased_questions

  • 训练集样本数量:2个
  • 训练集大小:125.31 KB
  • 下载大小:98.98 KB

特征字段

  • problem:字符串类型
  • deepseek_reasoning:字符串类型
  • deepseek_solution:字符串类型
  • ground_truth_solution:字符串类型
  • domain:字符串类型
  • source:字符串类型
  • test_cases:字符串类型
  • starter_code:字符串类型
  • messages:列表类型
    • content:字符串类型
    • role:字符串类型
  • num_tokens:整型
  • rephrased_question:字符串类型
  • model_response:字符串类型
  • rubric:字符串列表类型

配置2:rephrased_questions_openthoughts

  • 训练集样本数量:25个
  • 训练集大小:2.20 MB
  • 下载大小:1.07 MB

特征字段

  • problem:字符串类型
  • deepseek_reasoning:字符串类型
  • deepseek_solution:字符串类型
  • ground_truth_solution:字符串类型
  • domain:字符串类型
  • source:字符串类型
  • test_cases:字符串类型
  • starter_code:字符串类型
  • messages:列表类型
    • content:字符串类型
    • role:字符串类型
  • num_tokens:整型
  • rephrased_question:字符串类型
  • model_response:字符串类型
  • rubric:字符串列表类型

数据文件结构

  • rephrased_questions配置:rephrased_questions/train-*
  • rephrased_questions_openthoughts配置:rephrased_questions_openthoughts/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在编程教育领域,amazon-code-generation数据集通过系统化收集与重构编程问题构建而成。该数据集包含两个配置版本:rephrased_questions和rephrased_questions_openthoughts,分别涵盖2个和25个训练样本。每个样本整合了原始问题描述、深度推理过程、多版本解决方案及测试用例,并通过结构化字段如领域分类和代码框架实现数据标准化。数据来源标注清晰,确保样本的溯源性,其构建过程注重问题表述的多样性与解决方案的完整性。
使用方法
研究者可通过HuggingFace平台直接加载数据集的两个配置版本,分别对应基础重构问题和增强型思维链版本。使用时应根据特征字段进行任务设计:利用问题描述和消息序列构建对话式编程助手,通过对比标准答案与模型输出评估生成质量。测试用例字段支持自动化验证,评分标准则为人工评估提供依据。该数据集适用于编程教育、代码生成模型训练及自然语言到代码的转换研究等多个方向。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,代码生成技术正逐步重塑编程范式。Amazon-code-generation数据集作为该领域的重要资源,聚焦于通过自然语言描述自动生成可执行代码的核心任务。该数据集整合了多维度编程问题与深度推理过程,其结构化设计囊括问题描述、参考解决方案、测试用例及评估标准等关键元素,旨在推动智能编程助手与自动化代码生成系统的演进。
当前挑战
代码生成领域长期面临语义理解与逻辑保真度的双重考验,需精准转化自然语言意图为语法严谨的程序代码。数据集构建过程中,需协调领域知识覆盖广度与标注质量间的平衡,确保测试用例能有效验证代码功能完整性。多轮对话语境下的意图连贯性维护与代码可执行性验证,构成了数据采集与标注体系的核心难点。
常用场景
经典使用场景
在人工智能与软件工程交叉领域,Amazon-Code-Generation数据集为代码生成模型的训练与评估提供了标准化基准。该数据集通过包含问题描述、推理过程、解决方案及测试用例等结构化字段,典型应用于大语言模型在编程任务中的性能验证。研究者能够系统分析模型从自然语言需求到可执行代码的转换能力,尤其在处理多领域编程问题时展现出重要价值。
解决学术问题
该数据集有效解决了代码生成领域缺乏高质量并行语料的学术困境。通过提供经过重构的问题表述与标准答案对照,显著提升了模型在语义理解与逻辑推理方面的可解释性研究。其包含的领域分类与测试用例体系,为衡量模型泛化能力与鲁棒性建立了量化标准,推动了编程教育智能化与自动化软件工程的基础理论发展。
实际应用
在工业实践层面,该数据集支撑着智能编程助手的核心功能开发。基于其构建的代码生成系统可应用于企业级开发环境,实现需求文档到原型代码的自动转换。教育机构则借助该数据集开发自适应编程教学系统,通过分析学习者的解题路径提供个性化指导。其测试用例机制更可直接集成至持续集成流程,验证生成代码的功能完备性。
数据集最近研究
最新研究方向
在代码生成领域,amazon-code-generation数据集正推动自然语言到程序代码的语义转换研究。前沿工作聚焦于多轮对话式代码生成,通过问题重述机制增强模型对复杂需求的深层理解,结合测试用例与评估准则构建闭环验证体系。该方向与大规模语言模型的推理能力优化紧密关联,显著提升了代码生成在工业级应用中的准确性与鲁棒性,为智能编程助手的实际部署奠定关键技术基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作