five

HyGenar数据集

收藏
arXiv2025-05-23 更新2025-05-24 收录
下载链接:
https://github.com/RutaTang/HyGenar
下载链接
链接失效反馈
官方服务:
资源简介:
HyGenar数据集是一个用于评估大型语言模型(LLM)在少量样本上进行语法生成的数据集。该数据集包含540个结构化的语法生成挑战,每个挑战由3个正例和3个反例组成。数据集旨在研究LLM从少量正反例中推断和生成语法的能力,并用于评估8种不同LLM的性能。HyGenar数据集为LLM在语法生成方面的研究提供了重要的数据基础,并有助于推动相关领域的发展。

The HyGenar dataset is a benchmark resource designed to evaluate large language models (LLMs) on few-shot grammatical generation tasks. It comprises 540 structured grammatical generation challenges, with each challenge containing 3 positive examples and 3 negative examples. This dataset aims to explore the capacity of LLMs to infer and generate grammatical rules from a limited set of positive and negative examples, and to assess the performance of 8 distinct LLMs. The HyGenar dataset provides a critical data foundation for research on grammatical generation in LLMs, and contributes to advancing progress in this research area.
提供机构:
爱丁堡大学
创建时间:
2025-05-23
原始信息汇总

HyGenar 数据集概述

数据集基本信息

  • 数据集名称: HyGenar: An LLM-Driven Hybrid Genetic Algorithm for Few-Shot Grammar Generation
  • 数据集用途: 用于研究大型语言模型(LLMs)在小样本语法生成任务中的表现,并优化语法生成能力
  • 数据集内容: 包含540个结构化语法生成挑战

数据集结构

  • 核心数据文件: data/processed/bnf_with_examples.json
  • 分析文件夹: analysis
  • 代码文件夹: packages
  • 结果文件夹: results

数据集特点

  1. 语法生成任务: 从少量正负示例中推断并生成Backus-Naur Form(BNF)语法
  2. 评估指标: 包含6个专门设计的评估指标
  3. 模型评估: 评估了8种不同的大型语言模型

相关算法

  • 核心算法: LLM驱动的混合遗传算法(HyGenar)
  • 算法效果: 在生成语法的句法和语义正确性方面实现了显著改进

运行要求

  • 环境配置: 需通过conda env create -f environment.yml创建环境
  • API要求: 可选提供OpenAI API密钥
  • 硬件需求: 使用GPU可显著加速运行(不同模型运行时间从40分钟到24小时不等)
搜集汇总
数据集介绍
main_image_url
构建方式
HyGenar数据集的构建过程体现了严谨的科学方法论与创新技术的结合。研究团队首先通过GPT-4o生成了90个包含1-9个非终结符的参考语法,随后针对每个参考语法生成包含3个正例和3个反例的挑战任务。为确保数据质量,采用BNF解析器进行双重验证:对参考语法的结构有效性进行检查,并确保正例能被语法接受而反例被拒绝。最终形成的540个挑战任务覆盖了不同复杂度的语法结构,为少样本语法生成研究提供了系统化的评估基准。
使用方法
使用HyGenar数据集时,研究者可通过两种基准方法进行评估:直接提示(DP)要求模型根据给定示例直接生成语法;优化解析器反馈(OPF)则通过迭代优化改进语法。数据集支持端到端评估流程:首先用正反例提示模型生成候选语法,随后用内置验证器检查语法结构的合法性,最后通过解析测试评估语义准确性。对于高级研究,建议结合提出的混合遗传算法(HyGenar),利用模型的初始生成作为种群,通过交叉变异等进化策略优化语法质量。所有实验应记录6个核心指标以保障结果可比性。
背景与挑战
背景概述
HyGenar数据集由爱丁堡大学的研究团队于2025年5月创建,主要研究人员包括Weizhi Tang、Yixuan Li等。该数据集专注于探索大型语言模型(LLMs)在少样本语法生成任务中的能力,特别是在Backus-Naur形式(BNF)下的上下文无关文法(CFG)生成。其核心研究问题在于评估和改进LLMs从少量正负示例中推断并生成正确语法的能力,这对自然语言处理、软件工程等领域的自动化语法模型构建具有重要意义。数据集包含540个结构化语法生成挑战,为相关研究提供了标准化评估基准。
当前挑战
HyGenar数据集面临的主要挑战包括:1) 领域问题挑战:现有LLMs在语法生成任务中表现欠佳,尤其在确保生成语法同时接受所有正例并拒绝所有反例方面存在困难;2) 构建过程挑战:数据集创建时面临参考语法生成错误率高、正负示例验证复杂等问题,需通过BNF解析器和人工校正确保数据质量。此外,评估指标的设计需兼顾语法正确性、语义准确性和过拟合/过泛化等问题,增加了数据集构建的复杂度。
常用场景
经典使用场景
HyGenar数据集专为研究大语言模型(LLM)在少样本语法生成任务中的表现而设计,其经典使用场景包括评估和优化LLM在给定少量正负样例的情况下,推断并生成符合Backus-Naur形式(BNF)的上下文无关文法(CFG)。该数据集通过540个结构化挑战,系统化测试模型区分合法与非法字符串的能力,并为HyGenar算法提供基准测试平台,推动语法生成领域的方法创新。
解决学术问题
该数据集解决了LLM在语法推断中的核心学术问题:一是量化模型从有限样本中归纳语法规则的能力,填补了传统方法需大量标注数据的空白;二是提出6项评估指标(如句法正确性SX、语义正确性SE),首次系统评估生成文法的过拟合、泛化性和实用性。其意义在于揭示了LLM在结构化输出生成中的局限性,为基于遗传算法的新型优化方法提供了理论依据。
实际应用
在实际应用中,HyGenar数据集可服务于编程语言处理器的自动构建,通过少量代码样例生成语法解析器;在自然语言处理中辅助构建领域专用语法约束,如医疗报告或法律文书的结构化生成;还可集成至IDE工具实现实时代码纠错。其轻量级少样本特性显著降低了工业界部署语法分析系统的数据标注成本。
数据集最近研究
最新研究方向
近年来,HyGenar数据集在自然语言处理和代码生成领域引起了广泛关注,特别是在少样本语法生成任务中。该数据集通过结合大语言模型(LLMs)和混合遗传算法,显著提升了语法生成的准确性和效率。前沿研究方向主要集中在优化LLMs在语法推断和生成中的表现,尤其是在处理复杂上下文无关文法(CFG)和巴科斯-诺尔范式(BNF)时的能力。热点事件包括HyGenar算法在多个LLMs上的成功应用,以及其在语义和句法正确性方面的显著改进。这一研究对自动化代码生成、语法解析和自然语言处理工具的开发具有深远影响,为少样本学习场景下的语法生成提供了新的解决方案。
相关研究论文
  • 1
    HyGenar: An LLM-Driven Hybrid Genetic Algorithm for Few-Shot Grammar Generation爱丁堡大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作