FSMBench/fsmbench_intersection_set_1

Name: FSMBench/fsmbench_intersection_set_1
Creator: FSMBench
Published: 2024-04-16 05:23:42
License: 暂无描述

Hugging Face2024-04-16 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/FSMBench/fsmbench_intersection_set_1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与有限状态机（FSM）相关的查询和答案，涉及查询ID、FSM ID、FSM JSON、难度级别、转移矩阵、查询、答案、子字符串索引、状态数量、字母表数量和状态字母组合等字段。数据集分为验证集，包含500个示例，总大小为846300字节。数据集使用MIT许可证，语言为英语，规模类别为小于1K。

提供机构：

FSMBench

原始信息汇总

数据集概述

数据集特征

query_id: 字符串类型
fsm_id: 字符串类型
fsm_json: 字符串类型
difficulty_level: 整数类型（int64）
transition_matrix: 字符串类型
query: 字符串类型
answer: 字符串类型
substring_index: 整数类型（int64）
number_of_states: 整数类型（int64）
number_of_alphabets: 整数类型（int64）
state_alpha_combo: 字符串类型

数据集分割

验证集（validation）:
- 数据量: 846300字节
- 示例数量: 500

数据集大小

下载大小: 53404字节
数据集总大小: 846300字节

配置

默认配置（default）:
- 数据文件路径: data/validation-*

许可证

MIT许可证

语言

英语（en）

大小分类

小于1K（n<1K）

搜集汇总

数据集介绍

构建方式

在有限状态机（FSM）推理能力评估的研究背景下，FSMBench/fsmbench_intersection_set_1数据集旨在构建一个具有挑战性的基准测试集。其构建方式独特而严谨：首先选取了包括CodeLlama-70b-Instruct-hf、GPT-4-0125-preview、Llama-2-70b-chat-hf等在内的13种主流大语言模型，然后通过计算所有模型均能正确完成第一个状态转移的FSM交集，最终筛选出这500个验证样本。每个样本均包含查询ID、FSM ID、FSM的JSON表示、难度等级、转移矩阵、查询文本、正确答案、子串索引、状态数量、字母表数量以及状态与字母的组合等结构化字段，确保了数据集的完整性与可复现性。

使用方法

使用该数据集时，研究者可直接从HuggingFace加载验证集（validation split），其中包含500个精心设计的样本。每个样本的核心任务是根据给定的FSM定义（以JSON格式存储的转移矩阵）和自然语言查询，推理出正确的答案。研究者可将query字段作为输入提供给待评估的语言模型，将模型输出与answer字段进行精确匹配来评估其FSM推理能力。借助difficulty_level、number_of_states等字段，可以按难度分层评估模型表现。数据集文件以Parquet格式存储，可通过datasets库便捷加载，支持快速集成到现有的评估流程中。

背景与挑战

背景概述

在大型语言模型（LLM）的评估体系中，有限状态机（FSM）推理能力被视为衡量模型符号计算与逻辑推理水平的关键维度。FSMBench/fsmbench_intersection_set_1 数据集由多位研究者联合构建，旨在系统性地测试LLM对确定性有限自动机（DFA）的理解与执行能力。该数据集于2024年发布，整合了包括CodeLlama-70b、GPT-4、Llama-2在内的13种前沿模型在首步转移任务上的共同可解实例，通过求交集的方式筛选出所有模型均能正确处理的FSM问题。这一设计不仅揭示了不同架构与规模模型在形式语言处理上的共性瓶颈，也为后续研究提供了基准测试的可靠起点，推动了符号推理与神经语言模型交叉领域的深入探索。

当前挑战

当前数据集面临的核心挑战在于所解决的领域问题与构建过程的双重复杂性。在领域层面，LLM对FSM的推理需处理状态转移矩阵、字母表与状态数等多维参数，然而模型在长序列依赖与精确符号匹配上仍存在显著缺陷，尤其是面对多步转移或嵌套状态时易产生逻辑断裂。构建过程中，研究者需从数十万条候选问题中筛选出所有模型均能通过的交叉子集，这一过程面临模型间能力差异巨大带来的稀疏性问题——部分模型在简单任务上表现优异，而复杂场景下准确率骤降，导致交集规模受限。此外，数据集的验证集仅含500条样本，虽便于快速评估，但可能难以覆盖FSM推理的全部难度梯度，对泛化能力的测试存在局限性。

常用场景

经典使用场景

FSMBench/fsmbench_intersection_set_1 数据集聚焦于有限状态机（FSM）推理能力的评估，其经典使用场景在于衡量大语言模型在理解与执行确定性状态转换任务上的表现。该数据集精心构造了多个FSM实例，每个实例包含状态转移矩阵、查询及对应答案，要求模型基于给定的初始状态和输入序列，准确推断出最终状态或输出。这一场景模拟了形式语言理论中的核心问题，为探究语言模型在符号推理与结构化任务上的泛化能力提供了标准化的测试基准。

解决学术问题

该数据集有效解决了学术界在评估大语言模型符号推理能力时面临的基准不足问题。传统评测多聚焦于自然语言理解或常识推理，而FSM任务要求模型严格遵循离散状态转换规则，从而揭示其在逻辑一致性与序列处理上的深层局限。通过引入多模型交叉验证的FSM交集集合，该数据集能够精准识别不同模型在基础形式推理上的共性盲区，推动了对语言模型计算能力边界与内在机理的学术研究。

实际应用

在实际应用中，FSMBench/fsmbench_intersection_set_1 数据集可用于检验和优化需要可靠符号处理能力的AI系统，例如代码生成、协议解析与自动化规划工具。由于FSM广泛存在于编译器设计、网络协议验证和状态机控制等工业场景，该数据集帮助开发者评估模型在遵循严格规则方面的鲁棒性，从而针对性地改进模型在关键任务中的决策准确性，降低因逻辑错误引发的事故风险。

数据集最近研究