NEOCODER
收藏arXiv2024-07-12 更新2024-07-16 收录
下载链接:
https://github.com/JHU-CLSP/NeoCoder
下载链接
链接失效反馈官方服务:
资源简介:
NEOCODER数据集由约翰斯·霍普金斯大学创建,专注于编程问题的创新解决方案。该数据集包含199个最新的Codeforces编程问题,每个问题附有30个通过单元测试的人类解决方案。数据集通过DENIAL PROMPTING方法构建,逐步增加问题解决的约束条件,促使模型产生更具创造性的解决方案。NEOCODER主要用于评估和提升语言模型在复杂编程任务中的创造性解决能力。
The NEOCODER dataset was developed by Johns Hopkins University, with a focus on innovative solutions to programming problems. It comprises 199 recent Codeforces programming problems, each paired with 30 human-authored solutions that pass all unit tests. The dataset is constructed using the DENIAL PROMPTING approach, which gradually amplifies the constraints of problem-solving to enable models to generate more creative solutions. NEOCODER is primarily utilized to evaluate and improve the creative problem-solving abilities of large language models for complex programming tasks.
提供机构:
约翰斯·霍普金斯大学
创建时间:
2024-07-12
原始信息汇总
数据集概述
数据集内容
- NeoCoder 数据集: 包含 199 个问题,每个问题最多有 5 个时间相关的约束。
- 历史人类解决方案: 每个问题有 30 个人类解决方案及其技术检测结果(由 GPT-4 生成)。
- 人工标注的测试用例: 手动标注的测试用例,用于修复从爬取过程中遇到的某些解析问题。
文件结构描述
steps/: 可调用的脚本,对应于拒绝提示和创造性评估的每个步骤。src/: 模型、评估器、数据整理等的源代码。scripts/: 用于扩展实验的 bash 脚本。
数据集准备步骤
- 爬取 CodeForce 问题:
python steps/crawl_codeforce_problem.py --raw-data-dir datasets/CodeForce/raw/CodeForce800spreadsheet.xlsx --save-dir --num-sample --difficulty - 爬取人类解决方案:
python steps/crawl_codeforce_solution.py --crawled-problem-path --save-dir --max-solution-num - 准备测试用例:
python steps/parse_test_case.py --data-path --output-dir - 手动修正测试用例: 提供标注结果在
datasets/CodeForce/NeoCoder/test_cases_annotated.json
数据集生成步骤
- 生成 NeoCoder 数据集:
python steps/generate_dp.py --problem-set-dir --model-name --num-sample --dp-rounds --output-dir - 推理:
python steps/inference_dp.py --dataset-path --model-name {HF_MODEL_NAME, OPENAI_MODEL_NAME} --dp-rounds --batch-size --output-dir - NeoGauge@T 计算:
python steps/creativity_evaluation.py --task correctness --inference-result-path --test-case-path --save-folder --model-family
引用
@misc{lu2024benchmarkinglanguagemodelcreativity, title={Benchmarking Language Model Creativity: A Case Study on Code Generation}, author={Yining Lu and Dixuan Wang and Tianjian Li and Dongwei Jiang and Daniel Khashabi}, year={2024}, eprint={2407.09007}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.09007}, }
搜集汇总
数据集介绍

构建方式
NEOCODER数据集的构建是通过DENIAL PROMPTING方法实现的。该方法通过在先前解决方案上逐步施加新的约束,迫使LLM采用新的策略,从而推动LLM产生更具创造性的解决方案。具体而言,DENIAL PROMPTING方法使用一个强大的增强模型PLM来生成解决方案,并检测解决方案中使用的原子技术。然后,它将检测到的技术作为约束添加到问题中,并重复此过程,以获得一系列具有时间相关性和逐步增加的约束的问题。NEOCODER数据集包括原始问题及其相关的约束序列。
使用方法
NEOCODER数据集的使用方法是通过NEOGAUGE指标来评估LLM的创造力。NEOGAUGE指标结合了收敛思维和发散思维,用于评估LLM生成的解决方案。收敛思维评估解决方案的正确性和是否遵循给定约束,而发散思维评估解决方案的新颖性。通过将NEOGAUGE指标应用于NEOCODER数据集,可以评估LLM的创造力,并与历史人类解决方案进行比较。此外,NEOCODER数据集还可以用于研究和开发增强机器智能的方法,以提高LLM的创造性表现。
背景与挑战
背景概述
随着大型语言模型(LLMs)的广泛应用,评估这些模型在解决问题时展现的创造力变得愈发重要。本研究介绍了NEOCODER数据集,旨在通过引入DENIAL PROMPTING框架和NEOGAUGE指标,对LLMs的创造力进行量化评估。该数据集由约翰霍普金斯大学的研究人员创建,主要关注LLMs在解决编程问题时的创造性行为。研究结果显示,即使是GPT-4这样的先进模型,在创造力方面仍然无法与人类相提并论。NEOCODER数据集的发布为未来LLMs的创造力评估提供了重要的基准。
当前挑战
本研究面临的主要挑战包括:1)激发LLMs生成多样化和创造性解决方案的困难;2)缺乏可靠和全面的LLMs创造力量化指标。为了解决这些挑战,研究人员提出了DENIAL PROMPTING方法,通过逐步对先前的解决方案施加新的约束,迫使LLMs采用新的策略,从而激发创造性的解决方案。此外,他们还定义了NEOGAUGE指标,该指标同时考察了LLMs在生成创造性响应时的收敛性和发散性思维。然而,研究也发现,即使是经过优化的模型,在收敛性创造力方面仍然存在差距。
常用场景
经典使用场景
在自然语言处理和机器学习领域,NEOCODER数据集被广泛应用于评估语言模型(LLM)的创造力。该数据集通过DENIAL PROMPTING技术,逐步对LLM施加新的约束,推动其产生更具创造性的解决方案。NEOCODER数据集包含了一系列编程挑战问题,以及人类对这些问题的解决方案,为研究者提供了一个评估LLM创造力的基准。
解决学术问题
NEOCODER数据集解决了评估LLM创造力的两个主要挑战:激励LLM产生多样化和创造性生成的问题,以及缺乏可靠和全面的LLM创造力定量测量。DENIAL PROMPTING技术通过逐步增加约束,迫使LLM采用新的策略,从而产生更具创造性的解决方案。NEOGAUGE指标则综合考虑了收敛思维和发散思维,提供了一个全面评估LLM创造力的方法。
实际应用
NEOCODER数据集在实际应用中,可以帮助开发者更好地理解LLM的行为,将其作为设计目标,并为解决复杂的现实世界问题铺平道路。通过对LLM创造力的评估,开发者可以了解模型的局限性,并针对性地进行改进。此外,NEOCODER数据集还可以用于研究LLM的推理策略,以及如何通过增强机器智能来提高LLM的创造力。
数据集最近研究
最新研究方向
NEOCODER数据集专注于量化大型语言模型(LLMs)的创造力,并引入了DENIAL PROMPTING框架和NEOGAUGE指标。DENIAL PROMPTING通过逐步增加新的约束来推动LLMs产生更创造性的解决方案,而NEOGAUGE指标则考察了LLMs生成的创造性响应中的收敛思维和发散思维。该数据集在Codeforces问题上的应用表明,即使是GPT-4这样的最具有创造力的模型,其创造力仍远不及人类。此外,研究还发现,高级推理策略(如MCTS、自我纠正等)对创造力的提升效果有限。NEOCODER数据集的发布为未来模型在创造力方面的研究提供了重要的基准。
相关研究论文
- 1Benchmarking Language Model Creativity: A Case Study on Code Generation约翰斯·霍普金斯大学 · 2024年
以上内容由遇见数据集搜集并总结生成



