Stanza-Wikitext-2

Hugging Face2026-03-20 更新2026-03-21 收录

下载链接：

https://huggingface.co/datasets/EXOROBOURII/Stanza-Wikitext-2

下载链接

链接失效反馈

官方服务：

资源简介：

Stanza-Wikitext-2 是一个结构严谨、经过数学验证的自然语言处理数据集，专为多任务语言建模、自定义分词器训练、结构 NLP 研究和机制可解释性工作设计。该数据集是对 `wikitext-2-raw-v1` 语料库的现代化和注释衍生版本，通过斯坦福 NLP `Stanza` 神经管道，每个词元都被明确映射到其在七个对齐注释层中的语法、句法和语义功能。数据集保留了文档几何结构，明确标记了 Markdown 标题以支持结构感知的神经架构。数据集包含 101,455 个句子和 2,469,912 个词元，分为训练集（82,760 句，2,021,438 词元）、验证集（8,622 句，210,732 词元）和测试集（10,073 句，237,742 词元）。数据集采用并行数组结构，每行代表一个句子，所有语言特征存储在共索引、等长的数组中，确保词元与注释的 1:1 对齐。数据集适用于多任务语言建模、结构 NLP 研究、命名实体识别、依赖解析等任务，并提供了丰富的结构特征分析，如依赖度分布、词元深度分布、结构语法矩阵等。数据集还包含详细的用法示例和多种分析报告，如结构语法矩阵、几何 motif 分析和实体分布等。

创建时间：

2026-03-17

5,000+

优质数据集

54 个

任务类型

进入经典数据集