MAWO NLP Data

github2025-10-31 更新2025-11-02 收录

下载链接：

https://github.com/mawo-ru/mawo-nlp-data

下载链接

链接失效反馈

官方服务：

资源简介：

该存储库包含MAWO自然语言处理库的参考数据、模型和语料库，包括嵌入向量、词典、命名实体识别模型、形态学模型、句法分析模型以及OpenCorpora语料库等数据资源

This repository contains reference data, models and corpora for the MAWO Natural Language Processing (NLP) library, including embeddings, lexicons, Named Entity Recognition (NER) models, morphological models, syntactic parsing models, and the OpenCorpora corpus, along with other data resources.

创建时间：

2025-10-31

原始信息汇总

MAWO NLP 数据集概述

数据集基本信息

数据集名称: MAWO NLP Data
版本: v1.0.0 (当前)
许可证: MIT
发布日期: 2025-10-31
总大小: 约110MB

数据集组成

主要数据文件

natasha-data-v1.0.0.tar.gz (34MB)

内容结构:
- embeddings/navec_news_v1_1B_250K_300d_100q.emb (26MB)
- dictionaries/ (名字词典文件)
- models/ (SlovNet模型文件)
用途: mawo-natasha库的主要数据
SHA256: bd5e1b074046175c629eead72a07640ac8606b0c4471a93e05888f1c6c9bfb2d

SlovNet模型文件 (2.2-2.5MB每个)

slovnet_ner_news_v1.tar.neural.gz (2.2MB) - 命名实体识别
slovnet_morph_news_v1.tar.neural.gz (2.4MB) - 形态学分析
slovnet_syntax_news_v1.tar.neural.gz (2.5MB) - 句法分析
SHA256:
- NER: b4880fd6d5536097485c985d7b8a11bd593ea83e286554abb3d5a1df1b2b1f0a
- Morph: 276c8a3e6534a142e28b3b804cf269f4a8cb85c0c1342c059d17e1e84bb9ed18
- Syntax: fd214b5424dca70d4a6634abb7a5ab27c1689bb0d49638c19647db18c0375d99

opencorpora-2025.tar.gz (69MB)

内容: OpenCorpora语料库
用途: 高级形态学分析(可选)
SHA256: 171a8413b9d02e8eeed99a89958b6ebdb9ca0b91ba1f120085a3663cf8f2c484

数据统计信息

Navec词嵌入

词汇表: 250,000个词
维度: 300
量化: 100个级别
来源: 新闻语料库(10亿个标记)

名字词典(2025)

男性名字: ~7,500个唯一
女性名字: ~8,200个唯一
姓氏: ~95,000个唯一
父称: ~2,100个唯一
更新日期: 2025-09-15

SlovNet模型性能

NER准确率: F1 = 0.96 (PER), 0.92 (LOC), 0.89 (ORG)
形态学准确率: 98.2% (词性), 96.7% (格)
句法分析准确率: UAS = 94.1%, LAS = 92.3%

OpenCorpora语料库

词条: 391,845
标注句子: ~55,000
标记: ~1,000,000
版本: 0.92 (修订版417260)

支持的库

mawo-pymorphy3

形态学分析器
支持基础分析和完整语料库分析

mawo-slovnet

命名实体识别(NER)
形态学分析
句法分析

mawo-natasha

语义分析
自动下载所需数据

mawo-razdel

分词和句子分割

安装方式

自动安装

bash pip install mawo-natasha

手动安装

从https://github.com/mawo-ru/mawo-nlp-data/releases下载相应文件

许可证信息

OpenCorpora: CC BY-SA 3.0
SlovNet模型: MIT
Navec词嵌入: MIT
名字词典: MIT

搜集汇总

数据集介绍

构建方式

在俄语自然语言处理领域，MAWO NLP数据集通过模块化架构整合多源语言资源。该数据集采用分层压缩技术，将原始881MB语料优化至110MB，涵盖词向量、命名实体词典和预训练模型三大核心模块。构建过程中融合了OpenCorpora标注语料与新闻领域训练数据，通过自动化流水线完成词形还原模型与神经网络模型的协同训练，确保各组件在语言学标注体系上保持一致性。

特点

该数据集最显著的特征在于其多粒度语言覆盖能力，既包含250K词汇量的量化词向量，又整合了覆盖11.3万条目的命名实体词典。预训练模型在新闻语料上展现出卓越性能，命名实体识别F1值达0.89-0.96，依存句法分析LAS指标达到92.3%。数据组织采用即插即用设计，支持离线部署与在线更新双模式，每个组件均配备SHA256校验机制保障数据完整性。

使用方法

使用者可通过两种路径调用数据集资源：标准安装模式下依赖库会自动下载所需组件，离线部署则需手动解压预发布包至指定缓存目录。在mawo-natasha框架中，数据集驱动着从词法分析到语义解析的全流程，开发者仅需初始化Doc对象即可获得包含词性标注、句法树和命名实体的结构化输出。针对专业场景，可通过配置opencorpora路径启用增强版词形还原功能，获取词汇在大型语料库中的频率统计信息。

背景与挑战

背景概述

MAWO NLP数据集由俄罗斯自然语言处理研究团队MAWO于2025年创建，旨在为俄语NLP工具链提供统一的数据支撑。该数据集整合了词向量嵌入、命名实体词典、形态分析与句法分析模型等核心资源，覆盖了从基础分词到语义解析的全流程任务。其创新性体现在将OpenCorpora语料库与深度学习模型深度融合，为俄语这一形态复杂语言的计算研究建立了标准化基准，显著提升了俄语信息抽取、智能对话等应用领域的模型性能。

当前挑战

俄语自然语言处理面临词形变化丰富和句法结构灵活的双重挑战，该数据集通过融合规则与统计方法应对命名实体歧义消解和长距离依赖解析问题。在构建过程中，团队需解决多源数据格式对齐、方言词汇覆盖率提升，以及资源密集型模型压缩等技术难点，同时保持跨版本数据兼容性与分布式部署的稳定性。

常用场景

经典使用场景

在俄语自然语言处理领域，MAWO NLP数据集为语言分析工具链提供了核心支持。该数据集通过集成词向量、命名实体识别模型和语法分析组件，构建了覆盖词汇、句法与语义层面的完整分析框架。其预训练模型在新闻语料上展现出卓越性能，能够精准处理俄语特有的格变化和命名实体结构，为俄语文本的自动化解析奠定了坚实基础。

实际应用

在实际应用层面，该数据集支撑了多个俄语文本处理系统的开发。新闻媒体机构利用其命名实体识别功能实现自动内容标签化，教育领域借助语法分析模型构建智能写作辅助工具。金融科技行业则通过集成该数据集的语义分析组件，实现了俄语商业文档的自动化解析与关键信息提取，显著提升了跨语言商务沟通的效率。

衍生相关工作

基于该数据集衍生的经典工作包括mawo-natasha语义分析框架和mawo-slovnet多任务学习系统。这些工作通过融合数据集中提供的词向量与语法模型，构建了端到端的俄语文本理解管道。后续研究进一步扩展了模型在社交媒体文本和学术文献等特定领域的适应性，形成了完整的俄语自然语言处理生态系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集