five

Stanza-Wikitext-2

收藏
Hugging Face2026-03-20 更新2026-03-21 收录
下载链接:
https://huggingface.co/datasets/EXOROBOURII/Stanza-Wikitext-2
下载链接
链接失效反馈
官方服务:
资源简介:
Stanza-Wikitext-2 是一个结构严谨、经过数学验证的自然语言处理数据集,专为多任务语言建模、自定义分词器训练、结构 NLP 研究和机制可解释性工作设计。该数据集是对 `wikitext-2-raw-v1` 语料库的现代化和注释衍生版本,通过斯坦福 NLP `Stanza` 神经管道,每个词元都被明确映射到其在七个对齐注释层中的语法、句法和语义功能。数据集保留了文档几何结构,明确标记了 Markdown 标题以支持结构感知的神经架构。 数据集包含 101,455 个句子和 2,469,912 个词元,分为训练集(82,760 句,2,021,438 词元)、验证集(8,622 句,210,732 词元)和测试集(10,073 句,237,742 词元)。数据集采用并行数组结构,每行代表一个句子,所有语言特征存储在共索引、等长的数组中,确保词元与注释的 1:1 对齐。 数据集适用于多任务语言建模、结构 NLP 研究、命名实体识别、依赖解析等任务,并提供了丰富的结构特征分析,如依赖度分布、词元深度分布、结构语法矩阵等。数据集还包含详细的用法示例和多种分析报告,如结构语法矩阵、几何 motif 分析和实体分布等。
创建时间:
2026-03-17
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作