ptb-text-only/ptb_text_only

Name: ptb-text-only/ptb_text_only
Creator: ptb-text-only
Published: 2024-01-18 11:13:39
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/ptb-text-only/ptb_text_only

下载链接

链接失效反馈

官方服务：

资源简介：

这是Penn Treebank项目的第二个版本，包含1989年《华尔街日报》的百万字材料。在这个版本中，稀有词已被替换为<unk>标记，数字被替换为<N>标记。数据集中的文本为美式英语。

This is the second version of the Penn Treebank project, which contains one million words of material from the 1989 issues of The Wall Street Journal. In this version, rare words have been replaced with the <unk> tag, and numbers have been replaced with the <N> tag. The text in this dataset is in American English.

提供机构：

ptb-text-only

原始信息汇总

数据集卡片：Penn Treebank

数据集描述

数据集摘要

Penn Treebank项目：包含1989年《华尔街日报》材料的百万字语料库。数据集中的罕见词已被替换为<unk>标记，数字已被替换为<N>标记。

支持的任务和排行榜

语言建模
掩码语言建模

语言

数据集中的文本为美式英语。

数据集结构

数据实例

[需要更多信息]

数据字段

sentence: 字符串类型

数据分割

train: 包含42068个实例，5143706字节
test: 包含3761个实例，453710字节
validation: 包含3370个实例，403156字节

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言生产者

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见的讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策展人

[需要更多信息]

许可信息

数据集仅供研究使用。请检查数据集许可以获取更多信息。

引用信息

@article{marcus-etal-1993-building, title = "Building a Large Annotated Corpus of {E}nglish: The {P}enn {T}reebank", author = "Marcus, Mitchell P. and Santorini, Beatrice and Marcinkiewicz, Mary Ann", journal = "Computational Linguistics", volume = "19", number = "2", year = "1993", url = "https://www.aclweb.org/anthology/J93-2004", pages = "313--330", }

贡献

感谢@harshalmittal4添加此数据集。

搜集汇总

数据集介绍

构建方式

Penn Treebank数据集的构建基于1989年《华尔街日报》的文本材料，经过专家精心标注与处理。数据集中的稀有词汇已被替换为<unk>标记，数字则被替换为<N>标记，以确保数据的标准化和一致性。该数据集的构建旨在为语言建模和掩码语言建模等任务提供高质量的训练和测试数据。

特点

Penn Treebank数据集的主要特点在于其高质量的文本数据和经过处理的标记化文本。数据集包含约42,000个训练样本、3,370个验证样本和3,761个测试样本，覆盖了广泛的语言建模任务。此外，数据集的单语特性使其特别适合于英语语言模型的训练和评估。

使用方法

Penn Treebank数据集适用于多种自然语言处理任务，包括语言建模和掩码语言建模。用户可以通过加载数据集的训练、验证和测试分割来进行模型训练和评估。数据集的结构简单，主要包含句子字段，便于直接用于各种文本生成和语言模型任务。

背景与挑战

背景概述

Penn Treebank（PTB）数据集，由Mitchell P. Marcus、Beatrice Santorini和Mary Ann Marcinkiewicz于1993年创建，是计算语言学领域的重要资源。该数据集基于1989年《华尔街日报》的文本材料，包含约百万词的标注数据，旨在支持语言建模和文本生成等任务。PTB的构建标志着大规模标注语料库的开创性工作，对自然语言处理（NLP）领域产生了深远影响，尤其是在句法分析和语言模型训练方面。

当前挑战

PTB数据集在构建过程中面临的主要挑战包括：首先，原始文本的规范化处理，如将罕见词替换为<unk>标记，数字替换为<N>标记，以提高模型的泛化能力。其次，数据集的标注过程依赖于专家生成，确保了高质量的标注，但也增加了时间和成本。此外，尽管PTB在语言建模和文本生成任务中表现出色，但其单语特性限制了其在多语言环境中的应用，且数据集的规模相对较小，可能影响模型的训练效果。

常用场景

经典使用场景

Penn Treebank数据集的经典使用场景主要集中在语言建模和掩码语言建模任务上。该数据集以其高质量的文本数据和结构化的语料库著称，广泛应用于自然语言处理领域的模型训练和评估。研究者常利用该数据集进行文本生成模型的训练，以提升模型在生成连贯、语法正确的文本方面的能力。此外，掩码语言建模任务也常在该数据集上进行，以评估模型在处理缺失信息时的表现。

解决学术问题

Penn Treebank数据集解决了自然语言处理领域中语言建模和文本生成方面的关键学术问题。通过提供大规模、高质量的文本数据，该数据集为研究者提供了一个标准化的基准，用于评估和比较不同语言模型的性能。其丰富的语料库和结构化的数据格式，使得研究者能够深入探索语言模型的内在机制，推动了语言建模技术的进步。

衍生相关工作

Penn Treebank数据集的广泛应用催生了许多相关的经典工作。例如，基于该数据集的语言模型训练方法被广泛研究和改进，推动了循环神经网络（RNN）和长短期记忆网络（LSTM）等模型的发展。此外，该数据集还被用于开发和评估新的掩码语言模型，如BERT和GPT系列模型，这些模型在自然语言处理领域取得了显著的成果，并被广泛应用于各种实际任务中。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集