TüBa-J/S: Tübinger Baumbank des Japanischen/Spontansprache
收藏DataCite Commons2023-11-15 更新2024-07-13 收录
下载链接:
https://fdat.uni-tuebingen.de/records/mn7xy-y0b67
下载链接
链接失效反馈官方服务:
资源简介:
Die TüBa-J/S-Baumbank wurde im Projekt Verbmobil erstellt. Verbmobil war ein langfristig angelegtes Projekt zur maschinellen Übersetzung von Spontansprache, das vom Bundesministerium für Bildung und Forschung (BMBF) gefördert wurde. Die Tübinger Baumbank des Japanischen / Spontansprache (TüBa-J/S) ist ein syntaktisch annotiertes Korpus auf der Grundlage von spontansprachlichen Dialogen, die manuell transliteriert wurden. Sie umfasst ca. 18.000 Sätze bzw. 160.000 Wörter. Die Annotation erfolgte von Hand. Die syntaktische Annotation basiert auf HPSG Prinzipien. Das Annotationsschema unterscheidet drei Ebenen syntaktischer Konstituenz: die lexikalische Ebene, die phrasale Ebene und die Satzebene. Zusätzlich zur Konstituentenstruktur sind die Kanten zwischen den Knoten mit Labels annotiert. Diese Kantenlabels beschreiben grammatische Funktionen (als Relationen zwischen Phrasen) sowie die Unterscheidung zwischen Head und Non-Head (phrasenintern). Die Annotationen wurden 2006 beim CoNLL-X Shared Task: Multi-lingual Dependency Parsing als Trainingsdaten verwendet und sind in der normalen Baumbanklizenz enthalten.
TüBa-J/S句法树库(TüBa-J/S-Baumbank),全称为图宾根日语口语句法树库(Tübinger Baumbank des Japanischen / Spontansprache,简称TüBa-J/S),由Verbmobil项目构建完成。Verbmobil是一项面向即兴口语机器翻译的长期研究项目,由德国联邦教育与研究部(Bundesministerium für Bildung und Forschung,简称BMBF)资助。该语料库基于人工转写的口语对话构建,包含约1.8万个句子、总计约16万个词汇,所有标注均由人工完成。其句法标注基于中心语驱动短语结构语法(Head-Driven Phrase Structure Grammar,简称HPSG)的原则,标注体系将句法成分划分为三个层级:词汇层、短语层与句子层。除成分结构外,句法节点间的边均带有标签,这些标签用于描述语法功能(即短语间的关系),同时区分短语内部的中心语(Head)与非中心语(Non-Head)。2006年,该标注语料被用作CoNLL-X共享任务——多语言依存句法分析(Multi-lingual Dependency Parsing)的训练数据,且遵循标准句法树库许可协议。
提供机构:
University of Tübingen
创建时间:
2023-11-15



