five

TAGbank

收藏
arXiv2025-04-13 更新2025-04-22 收录
下载链接:
http://arxiv.org/abs/2504.05226v2
下载链接
链接失效反馈
官方服务:
资源简介:
TAGbank是一个由不列颠哥伦比亚大学语言学系的Jungyeul Park提出的语料库,旨在解决现有句法资源缺乏大规模基于词汇化语法形式主义语料库的问题。该数据集通过将现有的句法树库中的短语结构注释映射为TAG推导,支持语法分析、语法归纳和语义分析。文章中提到,TAGbank的构建借鉴了CCGbank的方法,并将其扩展到包含TAG独特的结构属性,包括透明的推导树和捕获长距离依赖的能力。数据集的创建过程包括从现有树库中提取基本树,并通过代换和附加操作将这些树组合成完整的句法结构。

TAGbank is a corpus developed by Jungyeul Park of the Department of Linguistics, University of British Columbia. It was constructed to address the shortage of large-scale corpora based on lexicalized grammatical formalisms in existing syntactic resources. The corpus supports syntactic parsing, grammar induction and semantic analysis by mapping phrase structure annotations from existing syntactic treebanks to TAG derivations. As noted in the associated research paper, the development of TAGbank draws on the methodology of CCGbank and extends it to encompass the unique structural properties of TAG, including transparent derivation trees and the capability to capture long-distance dependencies. The creation process of TAGbank involves extracting elementary trees from existing treebanks, and combining these trees into complete syntactic structures through substitution and adjunction operations.
提供机构:
不列颠哥伦比亚大学(The University of British Columbia)
创建时间:
2025-04-08
搜集汇总
数据集介绍
main_image_url
构建方式
TAGbank的构建采用了自动化转换流程,从现有的句法树库中提取并重组树邻接语法(TAG)的派生结构。该方法首先将短语结构树分解为词汇锚定的初始树和辅助树,随后通过替换和邻接操作将这些基本树组合成完整的TAG派生树。这一流程不仅保留了原始树库的句法功能标签,还通过引入TAG特有的派生树结构,实现了句法分析与语义解释的透明映射。
特点
TAGbank的核心特点在于其独特的派生树结构,能够同时捕捉表层句法结构和深层的派生历史。与传统的短语结构树库不同,TAGbank通过词汇锚定的基本树和显式的派生操作,提供了对长距离依赖和谓词-论元关系的直接编码。此外,该数据集支持跨语言扩展,其格式设计兼顾了机器可读性和人类可解释性,为句法分析和语义任务提供了丰富的结构化信息。
使用方法
TAGbank的使用方法主要包括句法解析器的训练与评估、语法归纳研究以及跨语言句法对比分析。研究人员可通过其标准化的派生树结构,开发基于TAG的统计或神经解析模型。数据集的表格化格式支持与语义角色标注等附加层的集成,便于开展联合句法-语义分析。对于理论语言学而言,TAGbank的派生树为探究不同语言的句法派生机制提供了实证基础。
背景与挑战
背景概述
TAGbank是由英属哥伦比亚大学语言学系的Jungyeul Park等人提出的一个基于树邻接语法(Tree-Adjoining Grammar, TAG)推导的语料库。该数据集旨在填补自然语言处理领域中缺乏基于词汇化语法形式的大规模语料库的空白。TAGbank通过从现有的句法树库中自动提取TAG推导,为句法分析、语法归纳和语义分析提供了丰富的资源。其核心研究问题在于如何将短语结构注释映射到TAG推导,并利用TAG的生成能力来支持多种计算任务。TAGbank的提出不仅推动了TAG在理论和应用上的发展,还为跨语言的语法形式研究提供了新的平台。
当前挑战
TAGbank在构建过程中面临多重挑战。首先,在领域问题方面,TAGbank需要解决如何准确捕捉长距离依赖和复杂句法结构的难题,这对传统的上下文无关语法(CFG)模型提出了挑战。其次,在构建过程中,研究人员需要确保不同树库方案之间的一致性,并处理语言特定的句法 idiosyncrasies。此外,自动转换流程中的词汇锚定、结构分解以及与TAG推导要求的正式一致性也是关键挑战。这些问题的解决直接影响到TAGbank的准确性和实用性。
常用场景
经典使用场景
TAGbank作为基于树邻接语法(TAG)的标注语料库,其经典使用场景主要集中在自然语言处理(NLP)领域中的句法分析和语义解析任务。通过将短语结构树库自动转换为TAG派生结构,TAGbank为研究者提供了一个丰富的资源,用于训练和评估TAG解析器。其独特的派生树结构不仅记录了表面句法,还保留了词汇化语法形式主义的组合历史,使得其在处理长距离依赖和复杂句法现象时表现出色。
实际应用
在实际应用中,TAGbank为句法解析器和语义角色标注系统提供了高质量的标注数据。其派生树结构能够直接映射到组合语义,使得其在语义角色标注、自然语言生成和机器翻译等任务中具有重要价值。此外,TAGbank的多语言扩展计划(如中文和韩语树库)进一步提升了其在跨语言NLP研究中的应用潜力,为处理不同语言类型的句法复杂性提供了统一框架。
衍生相关工作
TAGbank的衍生工作包括基于TAG的神经解析模型和跨语言语法研究。例如,Kasai等人(2017, 2018)利用TAGbank训练了端到端的神经TAG解析器,显著提升了解析性能。此外,TAGbank的方法论借鉴了CCGbank的成功经验,进一步推动了词汇化语法形式主义在NLP中的应用。未来工作还可能包括与PropBank和AMR等语义资源的整合,以支持更丰富的句法-语义联合分析。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作