PCFG SET (Probabilistic Context Free Grammar String Edit Task)

Name: PCFG SET (Probabilistic Context Free Grammar String Edit Task)
Creator: OpenDataLab
Published: 2026-05-24 09:30:18
License: 暂无描述

OpenDataLab2026-05-24 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/PCFG_SET

下载链接

链接失效反馈

官方服务：

资源简介：

概率上下文无关语法字符串编辑任务 (PCFG SET) 数据集是一个具有序列到序列问题的数据集，专门用于测试组合泛化的不同方面。特别是，该数据集包含用于测试系统性、生产力、替代性、本地化和过度概括的拆分。 PCFG SET 的输入字母表包含三种类型的词：表示 \emph{字符串编辑操作}（例如 $\texttt{append}、\texttt{copy}、\texttt{reverse}）$ 的一元和二元函数的词，组成这些函数可以应用到的字符串序列的元素（例如 $\texttt{A}、\texttt{B}、\texttt{A1}、\texttt{B1}$），以及用于分隔参数的分隔符二元函数 ($\texttt{,}$)。使用此字母表形成的输入序列是描述如何将一系列此类操作应用于字符串参数的序列。例如： $\texttt{重复 A B C }$ $\texttt{echo remove_first D K , E F}$ $\texttt{追加交换 F G H ，重复 I J}$ 输入序列是使用 PCFG 生成的，其产生概率是使用 EM 学习的，以将语料库中的深度和长度分布与英语句子相匹配。代表其含义的 PCFG SET 序列的输出是通过递归应用序列中指定的字符串编辑操作来构造的。例如： $\texttt{重复 A B C }$ & $\rightarrow$ & $\texttt{A B C A B C}$ $\texttt{echo remove_first D K , E F}$ & $\rightarrow$ & $\texttt{E F F}$ $\texttt{追加交换 F G H , 重复 I J}$ & $\rightarrow$ & $\texttt{H G F I J I J }$ 用于构建数据集的字符串字母表有 520 个不同的元素，函数的字符串参数的长度限制为 5。数据集总共包含大约 10 万个示例。数据集的完整描述可以在 Hupkes et al (2020) 中找到。

提供机构：

OpenDataLab

创建时间：

2022-06-28

搜集汇总

数据集介绍