five

taesiri/simple_fsm_bench

收藏
Hugging Face2024-01-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/taesiri/simple_fsm_bench
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: id dtype: string - name: fsm_json dtype: string - name: string dtype: string - name: label dtype: string - name: difficulty_level dtype: int64 - name: num_states dtype: int64 - name: num_transitions dtype: int64 - name: dot dtype: string splits: - name: train num_bytes: 85649620 num_examples: 21452 - name: validation num_bytes: 43739557 num_examples: 11102 download_size: 1507648 dataset_size: 129389177 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* ---

The dataset includes multiple features such as id, fsm_json, string, label, difficulty_level, num_states, num_transitions, and dot. Each feature has its data type. The dataset is divided into a training set and a validation set, containing 21452 and 11102 samples respectively. The download size of the dataset is 1507648 bytes, and the total size is 129389177 bytes. The dataset configuration is set to default, with the training and validation data files stored in the paths data/train-* and data/validation-* respectively.
提供机构:
taesiri
原始信息汇总

数据集概述

数据特征

  • id: 数据类型为字符串。
  • fsm_json: 数据类型为字符串。
  • string: 数据类型为字符串。
  • label: 数据类型为字符串。
  • difficulty_level: 数据类型为整数(int64)。
  • num_states: 数据类型为整数(int64)。
  • num_transitions: 数据类型为整数(int64)。
  • dot: 数据类型为字符串。

数据分割

  • train: 包含21452个样本,总字节数为85649620。
  • validation: 包含11102个样本,总字节数为43739557。

数据集大小

  • 下载大小: 1507648字节。
  • 数据集大小: 129389177字节。

配置

  • default:
    • train: 文件路径为data/train-*
    • validation: 文件路径为data/validation-*
搜集汇总
数据集介绍
main_image_url
构建方式
在形式语言与自动机理论领域,taesiri/simple_fsm_bench 数据集通过系统化方法构建而成。其核心基于有限状态机(FSM)模型,采用算法生成多样化的状态转移图,并对应产生符合特定正则语法的字符串序列。每个数据样本均包含 FSM 的 JSON 表示、关联字符串及其分类标签,同时标注了难度级别、状态数与转移数等元数据,确保了数据在结构与复杂性上的层次化分布。
特点
该数据集以有限状态机为核心,具备鲜明的结构化特征。每个样本均提供 FSM 的 JSON 描述、对应字符串及分类标签,并附有难度等级、状态数量和转移数量等量化指标。其独特之处在于集成了 Graphviz DOT 格式的可视化表示,支持直观的图结构分析。数据在训练集与验证集上均衡划分,覆盖了从简单到复杂的不同自动机模式,为模型提供了系统性的学习梯度。
使用方法
在自然语言处理与形式推理研究中,该数据集适用于序列分类、自动机推理及图结构学习等任务。使用者可加载训练集与验证集,通过 FSM JSON 或 DOT 格式解析状态机结构,利用字符串与标签进行监督学习。其难度级别与拓扑元数据支持分层评估或课程学习策略,有助于探究模型对规则系统的泛化能力与结构化理解水平。
背景与挑战
背景概述
在形式化方法与软件工程领域,有限状态机(FSM)作为系统行为建模的核心工具,其验证与测试一直是研究热点。taesiri/simple_fsm_bench数据集由研究人员taesiri于近期构建,旨在为FSM的自动化推理与代码生成提供基准测试平台。该数据集聚焦于从FSM规范到可执行代码的转换问题,通过结构化标注的FSM实例,支持模型驱动开发与程序合成技术的评估。其出现推动了形式化模型与机器学习方法的交叉融合,为智能软件工程工具的开发奠定了数据基础。
当前挑战
该数据集致力于解决有限状态机模型到代码的自动转换问题,其核心挑战在于确保生成代码的语义正确性与结构复杂性之间的平衡。构建过程中,研究人员需克服FSM实例的多样性生成难题,包括状态与转移数量的可控分布、难度级别的客观划分,以及图形化表示(dot格式)与结构化数据(JSON格式)的一致性维护。此外,数据标注需精确映射FSM规范到目标代码标签,避免歧义与噪声,这对自动化流水线的设计提出了较高要求。
常用场景
经典使用场景
在形式语言与自动机理论领域,taesiri/simple_fsm_bench数据集为研究有限状态机(FSM)的推理与泛化能力提供了标准化评估基准。该数据集通过结构化生成的FSM实例及其对应的字符串标签,经典地应用于机器学习模型,特别是序列模型和图神经网络,对自动机状态转移逻辑进行学习和预测。研究者常利用其训练模型从给定的FSM描述中推断字符串的接受或拒绝状态,从而探索模型在离散符号推理任务上的表现。
解决学术问题
该数据集有效应对了自动机学习与推理研究中长期存在的挑战,即缺乏大规模、多样化的基准数据来评估模型的泛化能力。它通过提供不同难度级别和结构复杂度的FSM实例,帮助学术界系统性地研究模型在处理状态转移规则、处理长程依赖以及应对未见过的自动机拓扑时的性能。这促进了对于机器学习模型在形式语言理解方面的理论分析,为探索符号推理与神经网络的结合提供了实证基础。
衍生相关工作
围绕该数据集,已衍生出一系列专注于神经符号推理的经典研究工作。例如,有研究利用图注意力网络对FSM的拓扑结构进行编码,以提升模型对状态转移逻辑的捕捉能力;另一些工作则探索了Transformer架构在此类序列到标签任务上的适应性,并分析了模型在复杂度递增的FSM上的泛化界限。这些工作共同推动了机器学习在形式语言处理领域的进展,为构建更可靠的神经推理系统奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作