samvdp/MLRegTest
收藏Hugging Face2023-04-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/samvdp/MLRegTest
下载链接
链接失效反馈官方服务:
资源简介:
MLRegTest是一个序列分类的基准数据集,包含来自1,800种正则语言的训练、开发和测试集。这些正则语言是形式语言,可以通过特定类型的正式语法定义,包括正则表达式、有限状态接受器和具有后继或优先关系的单子二阶逻辑。数据集的设计目的是帮助识别那些使机器学习系统在序列模式学习中难以成功泛化的因素,特别是长距离依赖的类型。数据集根据语言的逻辑复杂性(单子二阶、一阶、命题或单项式表达式)和逻辑字面量类型(字符串、层字符串、子序列或其组合)进行组织,以系统地理解正则语言中不同类型的长距离依赖,从而理解不同机器学习系统学习这些依赖的能力。
MLRegTest是一个序列分类的基准数据集,包含来自1,800种正则语言的训练、开发和测试集。这些正则语言是形式语言,可以通过特定类型的正式语法定义,包括正则表达式、有限状态接受器和具有后继或优先关系的单子二阶逻辑。数据集的设计目的是帮助识别那些使机器学习系统在序列模式学习中难以成功泛化的因素,特别是长距离依赖的类型。数据集根据语言的逻辑复杂性(单子二阶、一阶、命题或单项式表达式)和逻辑字面量类型(字符串、层字符串、子序列或其组合)进行组织,以系统地理解正则语言中不同类型的长距离依赖,从而理解不同机器学习系统学习这些依赖的能力。
提供机构:
samvdp
原始信息汇总
数据集概述
数据集名称
- 名称: MLRegTest
数据集描述
- 类型: 序列分类基准
- 内容: 包含来自1,800个正则语言的训练、开发和测试集
- 目的: 帮助识别影响机器学习系统在序列上成功学习模式的因素,特别是长距离依赖关系
数据集特点
- 语言类型: 正则语言,属于形式语言,可通过正则表达式、有限状态接受器和一阶逻辑等定义
- 组织方式: 根据逻辑复杂度(一阶、二阶、命题或单项表达式)和逻辑文字类型(字符串、层级字符串、子序列或其组合)组织
- 研究重点: 理解和评估不同机器学习系统学习正则语言中长距离依赖关系的能力
数据集存储位置
- 存储地址: OSF链接
数据集规模
- 规模: 10K<n<100K
许可证
- 许可证: cc-by-4.0



