Orchid

Hugging Face2025-08-11 更新2025-08-12 收录

下载链接：

https://huggingface.co/datasets/YDDYES/Orchid

下载链接

链接失效反馈

官方服务：

资源简介：

Orchid是一个用于评估大型语言模型在处理代码生成任务中的模糊要求时的鲁棒性的综合基准数据集。该数据集在HumanEval数据集的基础上，增加了四种精心设计的模糊类型：词义模糊、语义模糊、句法模糊和不明确性，每个任务都有对应的模糊版本和解释。

创建时间：

2025-07-30

原始信息汇总

Orchid数据集概述

基本信息

名称: Orchid
创建方式: [专家标注, 机器生成]
语言: [英语]
许可证: Apache-2.0
多语言性: [单语]
源数据集: [HumanEval]

数据集简介

Orchid是一个综合性基准数据集，旨在评估大型语言模型(LLMs)在代码生成任务中处理模糊性的能力。它扩展了HumanEval数据集，包含四种精心设计的模糊类型。

关键特性

词汇模糊性: 影响解释的词级模糊性
语义模糊性: 影响实现逻辑的基于含义的模糊性
句法模糊性: 句子结构中的结构模糊性
模糊性: 导致多种解释的不明确或不精确描述

数据集统计

总任务数: 164个编程问题
原始任务: 基于HumanEval数据集
模糊类型: 每个任务4种类型
格式: JSONL (JSON Lines)
语言: Python

数据结构

每个任务包含: json { "name": "HumanEval/0", "entry_point": "has_close_elements", "prompt": "原始任务描述", "solution": "正确实现", "test_case": [...], "Lexical_prompt": "词汇模糊版本", "Lexical_ambiguity_explanation": "词汇模糊解释", "Semantic_prompt": "语义模糊版本", "Semantic_ambiguity_explanation": "语义模糊解释", "Syntactic_prompt": "句法模糊版本", "Syntactic_ambiguity_explanation": "句法模糊解释", "Vagueness_prompt": "模糊性版本", "Vagueness_ambiguity_explanation": "模糊性解释" }

使用方式

加载数据集

python import json

def load_orchid_dataset(file_path): tasks = [] with open(file_path, r, encoding=utf-8) as f: for line in f: if line.strip(): tasks.append(json.loads(line)) return tasks

评估模型性能

python def evaluate_ambiguity_robustness(model, tasks): results = { original: [], lexical: [], semantic: [], syntactic: [], vagueness: [] } for task in tasks: original_result = model.generate(task[prompt]) results[original].append(original_result) for amb_type in [Lexical, Semantic, Syntactic, Vagueness]: if task[f{amb_type}_prompt]: amb_result = model.generate(task[f{amb_type}_prompt]) results[amb_type.lower()].append(amb_result) return results

评估指标

模糊性检测: 模型能否识别模糊需求
鲁棒性: 性能如何随模糊性变化
一致性: 模型对不同模糊类型的处理是否相似
错误分析: 模糊性导致哪些类型的错误

研究应用

模型鲁棒性测试: 评估模型处理现实模糊性的能力
提示工程: 研究模糊提示对代码生成的影响
模型比较: 比较不同模型的模糊处理能力
训练数据分析: 识别训练数据集中的潜在模糊性

贡献

添加新模糊类型: 提出新的模糊类别
提高模糊质量: 增强现有模糊提示
添加更多任务: 扩展数据集
评估工具: 创建新评估指标和工具

许可证

Apache License 2.0

搜集汇总

数据集介绍

构建方式

Orchid数据集基于HumanEval基准扩展构建，采用专家标注与机器生成相结合的方法，系统性地植入了四类编程需求模糊性。研究团队通过语言学分析框架，对原始编程任务描述进行语义解构，针对词汇、语义、句法和模糊性四个维度生成对应的模糊变体，每个变体均附有专业语言学解释。数据集构建过程严格遵循控制变量原则，确保模糊变体与原始任务保持相同的功能预期，仅改变需求表述的明确性。

特点

该数据集的核心价值在于其精心设计的四维模糊性分类体系：词汇模糊性体现为术语的多义性干扰，语义模糊性聚焦概念逻辑的歧义表达，句法模糊性呈现结构歧义导致的解析困难，而模糊性维度则捕获需求描述中的不精确性。每个编程任务包含原始版本及四类模糊变体，形成对比研究的基础。数据集采用JSONL格式存储，保留了HumanEval原有的函数签名、测试用例等关键元素，确保评估结果的可比性。

使用方法

使用Orchid评估大语言模型时，建议采用对照实验设计：首先在原始任务上建立基准性能，随后系统测试模型对四类模糊变体的响应。加载数据集后，可通过对比模型在模糊版本与原始版本上的代码生成差异，量化计算模糊敏感度指标。评估应关注三个层面：功能正确性保持度、模糊类型特异性错误模式、需求澄清能力。数据集提供的标准化测试用例支持自动化评估，而详细的模糊解释支持人工错误分析。

背景与挑战

背景概述

Orchid数据集作为评估大型语言模型（LLMs）在代码生成任务中处理模糊性能力的基准工具，由研究团队基于HumanEval数据集扩展构建。该数据集专注于探索LLMs在面临模糊需求时的鲁棒性，通过引入词汇、语义、句法和模糊性四种精心设计的模糊类型，为模型性能评估提供了系统化框架。其核心研究问题聚焦于自然语言到代码转换过程中歧义处理的量化分析，对提升AI辅助编程工具的可靠性具有重要价值。

当前挑战

该数据集主要面临两方面的挑战：领域问题层面，代码生成中的模糊需求识别属于自然语言理解的深层难题，模型需同时具备语法解析、语义推理和上下文理解能力；构建过程层面，人工设计具有代表性的模糊类型需平衡语言学准确性与编程场景相关性，且需确保原始任务与模糊版本的语义等价性。此外，评估指标的设计需兼顾模型对模糊性的检测能力与生成代码的功能正确性，这对基准测试的全面性提出较高要求。

常用场景

经典使用场景

在自然语言处理与程序生成交叉领域，Orchid数据集作为评估大语言模型处理模糊需求能力的基准工具，其经典使用场景体现在系统性测试模型对四类编程任务模糊性的响应机制。研究者通过对比模型在原始提示与四类模糊提示下的代码生成差异，能够精确量化模型对词汇歧义、语义歧义、句法歧义及描述模糊性的鲁棒性表现，为模型能力边界划定提供实验依据。

实际应用

在工业级AI编程工具开发中，Orchid数据集被广泛应用于智能代码补全系统的压力测试。科技公司利用其多维度模糊测试案例优化提示工程策略，显著提升开发工具对用户不完整或矛盾需求的解析能力。教育领域则通过该数据集构建编程理解诊断系统，精准识别学习者需求表述中的模糊点，实现个性化编程指导。

衍生相关工作

基于Orchid的评估框架，学术界衍生出包括模糊感知微调技术、抗干扰提示工程在内的重要研究方向。MIT团队提出的Ambiguity-Aware Finetuning方法通过该数据集验证了模型模糊容忍度的可提升性；Google Research则受其启发开发了动态澄清提问机制，这些工作共同推动了可解释性代码生成系统的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集