PCFG SET (Probabilistic Context Free Grammar String Edit Task)
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/PCFG_SET
下载链接
链接失效反馈官方服务:
资源简介:
概率上下文无关语法字符串编辑任务 (PCFG SET) 数据集是一个具有序列到序列问题的数据集,专门用于测试组合泛化的不同方面。特别是,该数据集包含用于测试系统性、生产力、替代性、本地化和过度概括的拆分。
PCFG SET 的输入字母表包含三种类型的词:表示 \emph{字符串编辑操作}(例如 $\texttt{append}、\texttt{copy}、\texttt{reverse})$ 的一元和二元函数的词,组成这些函数可以应用到的字符串序列的元素(例如 $\texttt{A}、\texttt{B}、\texttt{A1}、\texttt{B1}$),以及用于分隔参数的分隔符二元函数 ($\texttt{,}$)。使用此字母表形成的输入序列是描述如何将一系列此类操作应用于字符串参数的序列。例如:
$\texttt{重复 A B C }$
$\texttt{echo remove_first D K , E F}$
$\texttt{追加交换 F G H ,重复 I J}$
输入序列是使用 PCFG 生成的,其产生概率是使用 EM 学习的,以将语料库中的深度和长度分布与英语句子相匹配。
代表其含义的 PCFG SET 序列的输出是通过递归应用序列中指定的字符串编辑操作来构造的。例如:
$\texttt{重复 A B C }$ & $\rightarrow$ & $\texttt{A B C A B C}$
$\texttt{echo remove_first D K , E F}$ & $\rightarrow$ & $\texttt{E F F}$
$\texttt{追加交换 F G H , 重复 I J}$ & $\rightarrow$ & $\texttt{H G F I J I J }$
用于构建数据集的字符串字母表有 520 个不同的元素,函数的字符串参数的长度限制为 5。数据集总共包含大约 10 万个示例。数据集的完整描述可以在 Hupkes et al (2020) 中找到。
提供机构:
OpenDataLab
创建时间:
2022-06-28
搜集汇总
数据集介绍

背景与挑战
背景概述
PCFG SET是一个序列到序列数据集,专门用于评估组合泛化的多个方面,如系统性和生产力等。它通过概率上下文无关语法生成输入序列,这些序列描述字符串编辑操作,并递归应用以产生输出,数据集包含约10万个示例,由Hupkes等人在2020年发布。
以上内容由遇见数据集搜集并总结生成



