five

TAGbank

收藏
arXiv2025-04-08 更新2025-04-09 收录
下载链接:
http://arxiv.org/abs/2504.05226v1
下载链接
链接失效反馈
官方服务:
资源简介:
TAGbank是一个由不列颠哥伦比亚大学语言学系的Jungyeul Park提出的语料库,旨在填补现有句法资源与词汇化语法形式主义之间的空白。该数据集由现有的句法树库自动提取而来,包含Tree-Adjoining Grammar (TAG)的推导。它支持词汇化语法的解析、语法归纳和语义分析,并计划扩展到包括韩语和中文在内的多语言版本,以探索TAG形式主义的跨语言应用。

TAGbank is a corpus proposed by Jungyeul Park of the Linguistics Department at the University of British Columbia, designed to bridge the gap between existing syntactic resources and lexicalized grammatical formalism. The dataset is automatically extracted from existing syntactic treebanks and includes derivations in Tree-Adjoining Grammar (TAG). It supports the parsing, grammatical induction, and semantic analysis of lexicalized grammar and is planned to be expanded to include multi-language versions such as Korean and Chinese to explore the cross-linguistic application of the TAG formalism.
提供机构:
不列颠哥伦比亚大学(The University of British Columbia)
创建时间:
2025-04-08
搜集汇总
数据集介绍
main_image_url
构建方式
TAGbank的构建基于现有句法树库的自动转换流程,采用两步法实现短语结构到树邻接语法(TAG)派生结构的映射。首先通过头部渗透表和功能标签映射,将短语结构树分解为词汇锚定的初始树和辅助树;随后通过替换与邻接操作重构派生树,保留XTAG语法中的树族信息,并采用类似CoNLLU的表格化格式整合派生历史与表层句法标注。该方法创新性地解决了跨树库方案一致性和语言特异性句法异质性问题。
使用方法
该数据集主要服务于三大应用场景:基于TAG的解析器训练与评估时,可通过对比派生树与标准树库的对齐度验证模型性能;语法归纳研究中,可利用词汇锚定的基本树自动诱导跨语言语法规则;语义分析任务中,透明派生树可直接支持组合语义计算。使用时需注意语言特定版本的标注差异,建议结合XTAG语法库进行树族扩展,并利用Oracle机制解决邻接歧义问题。多词表达式处理需切换至扩展格式以获取复合索引标注。
背景与挑战
背景概述
TAGbank是由不列颠哥伦比亚大学语言学系的Jungyeul Park等人提出的一个基于树邻接语法(Tree-Adjoining Grammar, TAG)推导的语料库。该数据集于2025年提出,旨在填补现有句法资源(如Penn Treebank和Universal Dependencies)在词汇化语法形式化方面的不足。TAGbank通过从现有句法树库中自动提取TAG推导,为自然语言处理中的解析、语法归纳和语义分析提供了重要支持。其核心研究问题在于如何将短语结构注释映射到TAG推导,从而增强对长距离依赖和词汇化语法生成能力的理解。TAGbank的推出不仅推动了TAG理论的发展,还为跨语言语法研究提供了新的数据基础。
当前挑战
TAGbank在构建过程中面临多重挑战。首先,在领域问题方面,TAGbank旨在解决词汇化语法形式化在自然语言处理中的应用问题,但其复杂的长距离依赖和词汇化特性使得解析和语义对齐成为难点。其次,在构建过程中,如何确保不同树库方案之间的一致性以及如何处理语言特定的句法特性是主要挑战。此外,自动转换流程中的词汇锚定、结构分解以及与TAG推导要求的正式一致性也是技术难点。这些挑战需要通过创新的算法设计和跨语言适配来解决,以确保数据集的准确性和广泛适用性。
常用场景
经典使用场景
TAGbank作为基于树邻接语法(TAG)的语料库,其经典使用场景主要集中在自然语言处理(NLP)领域中的句法分析和语义分析。通过将短语结构树库自动转换为TAG派生结构,TAGbank为研究者提供了一个丰富的资源,用于训练和评估TAG解析器。其独特的派生树结构不仅捕捉了表面句法,还记录了树组合的层次历史,使得其在处理长距离依赖和复杂句法结构时表现出色。
解决学术问题
TAGbank解决了自然语言处理中缺乏基于词汇化语法形式的大规模语料库的问题。传统短语结构树库如Penn Treebank虽然提供了丰富的句法标注,但未能充分体现词汇化语法的优势。TAGbank通过自动提取TAG派生结构,填补了这一空白,支持了语法归纳、解析器评估和形式语法研究。其透明派生结构还为语义分析提供了清晰的接口,促进了句法与语义的联合研究。
实际应用
在实际应用中,TAGbank为多语言句法分析和语义角色标注提供了重要支持。其派生树结构与语义角色标注(如PropBank)和抽象意义表示(AMR)的天然对齐,使其成为联合句法-语义分析的理想平台。此外,TAGbank还可用于训练结构感知的大规模语言模型,帮助神经网络更好地理解句法层次和词汇化语法形式。
数据集最近研究
最新研究方向
随着自然语言处理领域对句法和语义接口研究的深入,TAGbank作为基于树邻接语法(TAG)的派生语料库,在当前研究中主要聚焦三个前沿方向:跨语言树邻接语法模型的构建、神经符号混合解析框架的开发,以及多模态语义标注的集成。该数据集通过将短语结构树库自动转换为TAG派生结构,为处理长距离依赖和谓词-论元关系提供了新型研究范式。近期热点体现在与通用依存标注体系的融合尝试,以及基于XTAG语法框架的多语言扩展,特别是在处理汉语话题链和韩语语序等类型学特征方面展现出独特优势。这类研究显著提升了语法诱导任务的性能基准,并为探索语言普遍性假设提供了实证基础。
相关研究论文
  • 1
    Proposing TAGbank as a Corpus of Tree-Adjoining Grammar Derivations不列颠哥伦比亚大学(The University of British Columbia) · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作