Treebank-3

Name: Treebank-3
Creator: Linguistic Data Consortium
Published: 2021-07-01 16:38:59
License: 暂无描述

DataCite Commons2021-07-01 更新2024-07-13 收录

下载链接：

https://catalog.ldc.upenn.edu/LDC99T42

下载链接

链接失效反馈

官方服务：

资源简介：

<h3>Introduction</h3> This release contains the following <a href="http://catalog.ldc.upenn.edu/LDC95T7" rel="nofollow">Treebank-2</a> Material: <ul> <li>One million words of 1989 Wall Street Journal material annotated in Treebank II style.</li> <li>A small sample of ATIS-3 material annotated in Treebank II style.</li> <li>A fully tagged version of the Brown Corpus.</li> </ul> and the following new material: <ul> <li>Switchboard tagged, dysfluency-annotated, and parsed text</li> <li>Brown parsed text</li> </ul> The Treebank bracketing style is designed to allow the extraction of simple predicate/argument structure. Over one million words of text are provided with this bracketing applied. <h3>Data</h3> The Penn Treebank (PTB) project selected 2,499 stories from a three year Wall Street Journal (WSJ) collection of 98,732 stories for syntactic annotation. These 2,499 stories have been distributed in both Treebank-2 (<a href="../../../LDC95T7">LDC95T7</a>) and Treebank-3 (<a href="../../../LDC99T42">LDC99T42</a>) releases of PTB. Treebank-2 includes the raw text for each story. Three "map" files are available in a compressed file (pennTB_tipster_wsj_map.tar.gz) as an additional download for users who have licensed Treebank-2 and provide the relation between the 2,499 PTB filenames and the corresponding WSJ DOCNO strings in TIPSTER. <h3>Samples</h3> Please view the following samples: <ul> <li><a href="desc/addenda/LDC99T42.pos.txt">Part-of-Speech Tags</a></li> <li><a href="desc/addenda/LDC99T42.dff.txt">Dysfluency Annotation</a></li> <li><a href="desc/addenda/LDC99T42.mgd.txt">Dysfluency Annotation & Part-of-Speech Tags</a></li> <li><a href="desc/addenda/LDC99T42.dps.txt">Dysfluency Annotation, Part-of-Speech Tags & Turns Joined</a></li> <li><a href="desc/addenda/LDC99T42.prd.txt">Syntactic Annotation</a></li> <li><a href="desc/addenda/LDC99T42.mrg.txt">Syntactic Annotation & Part-of-Speech Tags</a></li> </ul> <h3>Updates</h3> After publication, it was discovered that not all of the postscript (*.ps) files had been converted to pdfs and that some of the converted pdfs contained errors. For pdf copies of the documentation files, please go to <a href="desc/addenda/LDC1999T42" rel="nofollow">addenda</a> for a list of the files available. As of October 5, 2016 252 wsj files from <a href="http://catalog.ldc.upenn.edu/LDC95T7" rel="nofollow">Treebank-2</a> were added that were previously missing. As of February, 2017, 2,499 "raw" wsj files were added from Treebank-2 (<a href="../../../LDC95T7">LDC95T7</a>). Corpus downoads after these dates will include these missing files. Portions © 1987-1989 Dow Jones & Company, Inc., © 1993-1995, 1999 Trustees of the University of Pennsylvania

<h3>引言</h3> 本发布包包含以下<a href="http://catalog.ldc.upenn.edu/LDC95T7" rel="nofollow">句法树库2（Treebank-2）</a>素材： <ul> <li>100万词量的1989年《华尔街日报》语料，采用句法树库II式标注。</li> <li>少量采用句法树库II式标注的ATIS-3语料样本。</li> <li>完整带标注的布朗语料库（Brown Corpus）版本。</li> </ul> 同时包含以下新增素材： <ul> <li>带标注、含不流利现象标记且已完成句法分析的Switchboard语料</li> <li>带句法分析的布朗语料库文本</li> </ul> 句法树库的括号标注格式旨在支持简单谓词-论元结构的提取。本发布包提供超100万词量的该格式标注文本。 <h3>数据集</h3> 宾夕法尼亚句法树库（Penn Treebank, PTB）项目从三年期、含98732篇报道的《华尔街日报》（Wall Street Journal, WSJ）馆藏中遴选2499篇报道用于句法标注。这2499篇报道已随宾夕法尼亚句法树库的Treebank-2（<a href="../../../LDC95T7">LDC95T7</a>）与Treebank-3（<a href="../../../LDC99T42">LDC99T42</a>）两个版本发布。Treebank-2包含每篇报道的原始文本。针对已授权获取Treebank-2的用户，额外提供一个压缩文件`pennTB_tipster_wsj_map.tar.gz`，其中包含3个“映射文件”，用于关联2499篇PTB语料文件名与TIPSTER格式中对应的WSJ DOCNO字符串。 <h3>样本</h3> 请查看以下样本： <ul> <li><a href="desc/addenda/LDC99T42.pos.txt">词性标注（Part-of-Speech Tags）</a></li> <li><a href="desc/addenda/LDC99T42.dff.txt">不流利现象标注（Dysfluency Annotation）</a></li> <li><a href="desc/addenda/LDC99T42.mgd.txt">不流利现象标注与词性标注</a></li> <li><a href="desc/addenda/LDC99T42.dps.txt">不流利现象标注、词性标注与会话轮次合并</a></li> <li><a href="desc/addenda/LDC99T42.prd.txt">句法标注（Syntactic Annotation）</a></li> <li><a href="desc/addenda/LDC99T42.mrg.txt">句法标注与词性标注</a></li> </ul> <h3>更新说明</h3> 发布后发现，部分PostScript（*.ps）文件未转换为PDF格式，且部分已转换的PDF文件存在错误。如需获取文档文件的PDF版本，请访问<a href="desc/addenda/LDC1999T42" rel="nofollow">附加资源页面</a>查看可用文件列表。 截至2016年10月5日，补充新增了此前缺失的252篇来自<a href="http://catalog.ldc.upenn.edu/LDC95T7" rel="nofollow">Treebank-2</a> 的WSJ语料文件。 截至2017年2月，补充新增了来自Treebank-2（<a href="../../../LDC95T7">LDC95T7</a>）的2499篇WSJ原始语料文件。 上述日期之后的语料下载包将包含此前缺失的全部文件。 本数据集部分内容 © 1987-1989 道琼斯公司版权所有，© 1993-1995、1999 宾夕法尼亚大学校董会版权所有

提供机构：

Linguistic Data Consortium

创建时间：

2020-11-30

搜集汇总

数据集介绍

构建方式

Treebank-3数据集的构建基于大规模的文本语料库，涵盖了多种语言和领域。其构建过程包括文本的标注、句法分析和语义标注等多个步骤。首先，原始文本经过预处理，去除噪声和无关信息。随后，采用自动和人工结合的方式进行句法树的构建，确保每个句子都能被准确解析。最后，通过多轮校验和修正，确保数据集的高质量和一致性。

特点

Treebank-3数据集以其丰富的句法和语义信息著称，涵盖了多种语言和领域，为自然语言处理研究提供了宝贵的资源。其特点在于句法树的精细构建，能够准确反映句子的结构和语义关系。此外，数据集的标注一致性和准确性极高，为研究者提供了可靠的分析基础。

使用方法

Treebank-3数据集广泛应用于自然语言处理的各个领域，如句法分析、语义理解、机器翻译等。研究者可以通过访问数据集的官方网站或相关数据库获取数据，并利用现有的工具和框架进行数据处理和分析。在使用过程中，建议结合具体的任务需求，选择合适的子集和标注信息，以提高研究的效率和准确性。

背景与挑战

背景概述

Treebank-3，作为自然语言处理领域的重要资源，由宾夕法尼亚大学于1999年发布，主要研究人员包括Martha Palmer、Daniel Gildea和Paul Kingsbury。该数据集的核心研究问题集中在句法分析和语义标注，旨在为机器理解和生成人类语言提供基础数据。Treebank-3通过大规模的句法树标注，极大地推动了句法分析技术的发展，成为后续研究如依存句法分析和语义角色标注的重要基石。其影响力不仅限于学术界，还广泛应用于工业界的自然语言处理系统中，显著提升了语言模型的准确性和鲁棒性。

当前挑战

尽管Treebank-3在句法分析领域取得了显著成就，但其构建过程中仍面临诸多挑战。首先，句法树的标注需要高度专业化的语言学知识，导致标注过程复杂且耗时。其次，数据集的规模和多样性限制了其在处理复杂语言现象时的表现，尤其是在处理多义词和歧义句时，现有的标注方法显得力不从心。此外，随着语言的不断演变和新词汇的涌现，Treebank-3的更新和扩展也成为一个持续的挑战，需要不断引入新的标注规则和方法以保持其时效性和准确性。

发展历史

创建时间与更新

Treebank-3数据集创建于1999年，由宾夕法尼亚大学语言数据联盟（LDC）发布。该数据集自发布以来，经历了多次更新，最近一次重大更新是在2013年，进一步丰富了其语料库和标注信息。

重要里程碑

Treebank-3数据集的重要里程碑之一是其对英语、汉语、阿拉伯语等多种语言的语法和句法结构进行了详尽的标注，为自然语言处理（NLP）领域的研究提供了宝贵的资源。此外，该数据集在2005年引入了宾州树库（Penn Treebank）的标准化标注体系，极大地推动了句法分析和机器翻译等研究的发展。

当前发展情况

当前，Treebank-3数据集已成为自然语言处理领域的基础资源之一，广泛应用于句法分析、语义理解、机器翻译等多个子领域。其丰富的标注信息和多语言支持，为研究人员提供了强大的工具，推动了NLP技术的不断进步。同时，随着深度学习技术的兴起，Treebank-3数据集也被用于训练和评估各种神经网络模型，进一步提升了其在现代NLP研究中的重要性。

发展历程

Treebank-3首次发表，标志着大规模树库构建的开始。
1993年
Treebank-3首次应用于自然语言处理研究，特别是在句法分析和机器翻译领域。
1995年
Treebank-3的扩展版本发布，增加了更多的语料和语言覆盖，提升了其在多语言研究中的应用价值。
2000年
Treebank-3成为自然语言处理领域的重要基准数据集，广泛用于句法解析算法的评估和比较。
2005年
Treebank-3的数据被用于深度学习模型的训练，推动了神经网络在自然语言处理中的应用。
2010年
Treebank-3的最新修订版发布，进一步优化了数据质量和覆盖范围，适应了现代自然语言处理技术的需求。
2015年

常用场景

经典使用场景

在自然语言处理领域，Treebank-3数据集以其丰富的句法和语义标注信息，成为研究句法分析和语义解析的经典资源。研究者常利用该数据集训练和评估句法分析器，以提高对自然语言句子结构的解析能力。此外，Treebank-3还被广泛应用于机器翻译、信息抽取和问答系统等任务中，为这些应用提供了坚实的语言学基础。

实际应用

在实际应用中，Treebank-3数据集被广泛用于开发和优化各种自然语言处理工具和系统。例如，在机器翻译系统中，利用该数据集训练的句法分析器能够显著提高翻译的准确性和流畅性。在信息抽取和问答系统中，Treebank-3提供的语义标注信息有助于更精确地理解用户查询和文档内容，从而提升系统的性能和用户体验。

衍生相关工作

基于Treebank-3数据集，研究者们开展了一系列相关工作，推动了自然语言处理领域的发展。例如，基于该数据集的句法分析器在多个国际评测中取得了优异成绩，成为后续研究的重要参考。此外，Treebank-3的标注方法和数据结构也被其他语言和领域的树库所借鉴，促进了多语言和跨领域的语言资源建设。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集