HyGenar数据集

Name: HyGenar数据集
Creator: 爱丁堡大学
Published: 2025-05-23 01:52:31
License: 暂无描述

arXiv2025-05-23 更新2025-05-24 收录

下载链接：

https://github.com/RutaTang/HyGenar

下载链接

链接失效反馈

官方服务：

资源简介：

HyGenar数据集是一个用于评估大型语言模型（LLM）在少量样本上进行语法生成的数据集。该数据集包含540个结构化的语法生成挑战，每个挑战由3个正例和3个反例组成。数据集旨在研究LLM从少量正反例中推断和生成语法的能力，并用于评估8种不同LLM的性能。HyGenar数据集为LLM在语法生成方面的研究提供了重要的数据基础，并有助于推动相关领域的发展。

The HyGenar dataset is a benchmark resource designed to evaluate large language models (LLMs) on few-shot grammatical generation tasks. It comprises 540 structured grammatical generation challenges, with each challenge containing 3 positive examples and 3 negative examples. This dataset aims to explore the capacity of LLMs to infer and generate grammatical rules from a limited set of positive and negative examples, and to assess the performance of 8 distinct LLMs. The HyGenar dataset provides a critical data foundation for research on grammatical generation in LLMs, and contributes to advancing progress in this research area.

提供机构：

爱丁堡大学

创建时间：

2025-05-23

原始信息汇总

HyGenar 数据集概述

数据集基本信息

数据集名称: HyGenar: An LLM-Driven Hybrid Genetic Algorithm for Few-Shot Grammar Generation
数据集用途: 用于研究大型语言模型（LLMs）在小样本语法生成任务中的表现，并优化语法生成能力
数据集内容: 包含540个结构化语法生成挑战

数据集结构

核心数据文件: data/processed/bnf_with_examples.json
分析文件夹: analysis
代码文件夹: packages
结果文件夹: results

数据集特点

语法生成任务: 从少量正负示例中推断并生成Backus-Naur Form（BNF）语法
评估指标: 包含6个专门设计的评估指标
模型评估: 评估了8种不同的大型语言模型

运行要求

环境配置: 需通过conda env create -f environment.yml创建环境
API要求: 可选提供OpenAI API密钥
硬件需求: 使用GPU可显著加速运行（不同模型运行时间从40分钟到24小时不等）

搜集汇总

数据集介绍

构建方式

HyGenar数据集的构建过程体现了严谨的科学方法论与创新技术的结合。研究团队首先通过GPT-4o生成了90个包含1-9个非终结符的参考语法，随后针对每个参考语法生成包含3个正例和3个反例的挑战任务。为确保数据质量，采用BNF解析器进行双重验证：对参考语法的结构有效性进行检查，并确保正例能被语法接受而反例被拒绝。最终形成的540个挑战任务覆盖了不同复杂度的语法结构，为少样本语法生成研究提供了系统化的评估基准。

使用方法

使用HyGenar数据集时，研究者可通过两种基准方法进行评估：直接提示（DP）要求模型根据给定示例直接生成语法；优化解析器反馈（OPF）则通过迭代优化改进语法。数据集支持端到端评估流程：首先用正反例提示模型生成候选语法，随后用内置验证器检查语法结构的合法性，最后通过解析测试评估语义准确性。对于高级研究，建议结合提出的混合遗传算法（HyGenar），利用模型的初始生成作为种群，通过交叉变异等进化策略优化语法质量。所有实验应记录6个核心指标以保障结果可比性。

背景与挑战

背景概述

HyGenar数据集由爱丁堡大学的研究团队于2025年5月创建，主要研究人员包括Weizhi Tang、Yixuan Li等。该数据集专注于探索大型语言模型（LLMs）在少样本语法生成任务中的能力，特别是在Backus-Naur形式（BNF）下的上下文无关文法（CFG）生成。其核心研究问题在于评估和改进LLMs从少量正负示例中推断并生成正确语法的能力，这对自然语言处理、软件工程等领域的自动化语法模型构建具有重要意义。数据集包含540个结构化语法生成挑战，为相关研究提供了标准化评估基准。

当前挑战

HyGenar数据集面临的主要挑战包括：1) 领域问题挑战：现有LLMs在语法生成任务中表现欠佳，尤其在确保生成语法同时接受所有正例并拒绝所有反例方面存在困难；2) 构建过程挑战：数据集创建时面临参考语法生成错误率高、正负示例验证复杂等问题，需通过BNF解析器和人工校正确保数据质量。此外，评估指标的设计需兼顾语法正确性、语义准确性和过拟合/过泛化等问题，增加了数据集构建的复杂度。

常用场景

经典使用场景

HyGenar数据集专为研究大语言模型（LLM）在少样本语法生成任务中的表现而设计，其经典使用场景包括评估和优化LLM在给定少量正负样例的情况下，推断并生成符合Backus-Naur形式（BNF）的上下文无关文法（CFG）。该数据集通过540个结构化挑战，系统化测试模型区分合法与非法字符串的能力，并为HyGenar算法提供基准测试平台，推动语法生成领域的方法创新。

解决学术问题

该数据集解决了LLM在语法推断中的核心学术问题：一是量化模型从有限样本中归纳语法规则的能力，填补了传统方法需大量标注数据的空白；二是提出6项评估指标（如句法正确性SX、语义正确性SE），首次系统评估生成文法的过拟合、泛化性和实用性。其意义在于揭示了LLM在结构化输出生成中的局限性，为基于遗传算法的新型优化方法提供了理论依据。

实际应用

在实际应用中，HyGenar数据集可服务于编程语言处理器的自动构建，通过少量代码样例生成语法解析器；在自然语言处理中辅助构建领域专用语法约束，如医疗报告或法律文书的结构化生成；还可集成至IDE工具实现实时代码纠错。其轻量级少样本特性显著降低了工业界部署语法分析系统的数据标注成本。

数据集最近研究