NEOCODER

Name: NEOCODER
Creator: 约翰斯·霍普金斯大学
Published: 2024-07-12 13:55:22
License: 暂无描述

arXiv2024-07-12 更新2024-07-16 收录

下载链接：

https://github.com/JHU-CLSP/NeoCoder

下载链接

链接失效反馈

官方服务：

资源简介：

NEOCODER数据集由约翰斯·霍普金斯大学创建，专注于编程问题的创新解决方案。该数据集包含199个最新的Codeforces编程问题，每个问题附有30个通过单元测试的人类解决方案。数据集通过DENIAL PROMPTING方法构建，逐步增加问题解决的约束条件，促使模型产生更具创造性的解决方案。NEOCODER主要用于评估和提升语言模型在复杂编程任务中的创造性解决能力。

The NEOCODER dataset was developed by Johns Hopkins University, with a focus on innovative solutions to programming problems. It comprises 199 recent Codeforces programming problems, each paired with 30 human-authored solutions that pass all unit tests. The dataset is constructed using the DENIAL PROMPTING approach, which gradually amplifies the constraints of problem-solving to enable models to generate more creative solutions. NEOCODER is primarily utilized to evaluate and improve the creative problem-solving abilities of large language models for complex programming tasks.

提供机构：

约翰斯·霍普金斯大学

创建时间：

2024-07-12

原始信息汇总

数据集概述

数据集内容

NeoCoder 数据集: 包含 199 个问题，每个问题最多有 5 个时间相关的约束。
历史人类解决方案: 每个问题有 30 个人类解决方案及其技术检测结果（由 GPT-4 生成）。
人工标注的测试用例: 手动标注的测试用例，用于修复从爬取过程中遇到的某些解析问题。

文件结构描述

steps/: 可调用的脚本，对应于拒绝提示和创造性评估的每个步骤。
src/: 模型、评估器、数据整理等的源代码。
scripts/: 用于扩展实验的 bash 脚本。

数据集准备步骤

爬取 CodeForce 问题: python steps/crawl_codeforce_problem.py --raw-data-dir datasets/CodeForce/raw/CodeForce800spreadsheet.xlsx --save-dir --num-sample --difficulty
爬取人类解决方案: python steps/crawl_codeforce_solution.py --crawled-problem-path --save-dir --max-solution-num
准备测试用例: python steps/parse_test_case.py --data-path --output-dir
手动修正测试用例: 提供标注结果在 datasets/CodeForce/NeoCoder/test_cases_annotated.json

数据集生成步骤

生成 NeoCoder 数据集: python steps/generate_dp.py --problem-set-dir --model-name --num-sample --dp-rounds --output-dir
推理: python steps/inference_dp.py --dataset-path --model-name {HF_MODEL_NAME, OPENAI_MODEL_NAME} --dp-rounds --batch-size --output-dir
NeoGauge@T 计算: python steps/creativity_evaluation.py --task correctness --inference-result-path --test-case-path --save-folder --model-family

引用

@misc{lu2024benchmarkinglanguagemodelcreativity, title={Benchmarking Language Model Creativity: A Case Study on Code Generation}, author={Yining Lu and Dixuan Wang and Tianjian Li and Dongwei Jiang and Daniel Khashabi}, year={2024}, eprint={2407.09007}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.09007}, }

搜集汇总

数据集介绍

构建方式

NEOCODER数据集的构建是通过DENIAL PROMPTING方法实现的。该方法通过在先前解决方案上逐步施加新的约束，迫使LLM采用新的策略，从而推动LLM产生更具创造性的解决方案。具体而言，DENIAL PROMPTING方法使用一个强大的增强模型PLM来生成解决方案，并检测解决方案中使用的原子技术。然后，它将检测到的技术作为约束添加到问题中，并重复此过程，以获得一系列具有时间相关性和逐步增加的约束的问题。NEOCODER数据集包括原始问题及其相关的约束序列。

使用方法

NEOCODER数据集的使用方法是通过NEOGAUGE指标来评估LLM的创造力。NEOGAUGE指标结合了收敛思维和发散思维，用于评估LLM生成的解决方案。收敛思维评估解决方案的正确性和是否遵循给定约束，而发散思维评估解决方案的新颖性。通过将NEOGAUGE指标应用于NEOCODER数据集，可以评估LLM的创造力，并与历史人类解决方案进行比较。此外，NEOCODER数据集还可以用于研究和开发增强机器智能的方法，以提高LLM的创造性表现。

背景与挑战

背景概述

随着大型语言模型（LLMs）的广泛应用，评估这些模型在解决问题时展现的创造力变得愈发重要。本研究介绍了NEOCODER数据集，旨在通过引入DENIAL PROMPTING框架和NEOGAUGE指标，对LLMs的创造力进行量化评估。该数据集由约翰霍普金斯大学的研究人员创建，主要关注LLMs在解决编程问题时的创造性行为。研究结果显示，即使是GPT-4这样的先进模型，在创造力方面仍然无法与人类相提并论。NEOCODER数据集的发布为未来LLMs的创造力评估提供了重要的基准。

当前挑战

本研究面临的主要挑战包括：1)激发LLMs生成多样化和创造性解决方案的困难；2)缺乏可靠和全面的LLMs创造力量化指标。为了解决这些挑战，研究人员提出了DENIAL PROMPTING方法，通过逐步对先前的解决方案施加新的约束，迫使LLMs采用新的策略，从而激发创造性的解决方案。此外，他们还定义了NEOGAUGE指标，该指标同时考察了LLMs在生成创造性响应时的收敛性和发散性思维。然而，研究也发现，即使是经过优化的模型，在收敛性创造力方面仍然存在差距。

常用场景

经典使用场景

在自然语言处理和机器学习领域，NEOCODER数据集被广泛应用于评估语言模型（LLM）的创造力。该数据集通过DENIAL PROMPTING技术，逐步对LLM施加新的约束，推动其产生更具创造性的解决方案。NEOCODER数据集包含了一系列编程挑战问题，以及人类对这些问题的解决方案，为研究者提供了一个评估LLM创造力的基准。

解决学术问题

NEOCODER数据集解决了评估LLM创造力的两个主要挑战：激励LLM产生多样化和创造性生成的问题，以及缺乏可靠和全面的LLM创造力定量测量。DENIAL PROMPTING技术通过逐步增加约束，迫使LLM采用新的策略，从而产生更具创造性的解决方案。NEOGAUGE指标则综合考虑了收敛思维和发散思维，提供了一个全面评估LLM创造力的方法。

实际应用

NEOCODER数据集在实际应用中，可以帮助开发者更好地理解LLM的行为，将其作为设计目标，并为解决复杂的现实世界问题铺平道路。通过对LLM创造力的评估，开发者可以了解模型的局限性，并针对性地进行改进。此外，NEOCODER数据集还可以用于研究LLM的推理策略，以及如何通过增强机器智能来提高LLM的创造力。

数据集最近研究