Nerus
收藏github2024-04-09 更新2024-05-31 收录
下载链接:
https://github.com/natasha/russian-ner-corpus
下载链接
链接失效反馈官方服务:
资源简介:
Nerus是一个大型银标准俄语语料库,注释了POS标签、句法树和NER标签(PER、LOC、ORG)。该语料库存在一定程度的标记错误,但质量较高,包含约700K篇来自Lenta.ru的新闻文章。
Nerus is a large silver-standard Russian corpus annotated with POS tags, syntactic trees, and NER labels (PER, LOC, ORG). The corpus, while containing a certain degree of annotation errors, is of high quality and comprises approximately 700K news articles sourced from Lenta.ru.
创建时间:
2018-09-10
原始信息汇总
数据集概述
名称: Nerus
描述: Nerus是一个大型的银标准俄语语料库,标注了词性(POS tags)、句法树和命名实体识别标签(PER, LOC, ORG)。该语料库包含约700,000篇来自Lenta.ru的新闻文章。
数据来源: Lenta.ru新闻文章
标注工具:
- Razdel: 用于句子和词元分割
- Slovnet: 使用BERT模型进行形态学、句法和命名实体标注
数据格式: 遵循CoNLL-U标准格式
数据量: 约700,000篇文章,总数据量约2GB
安装与使用:
- 安装: 通过pip安装
nerus包 - 使用: 加载数据集并展示标注信息,支持Python 3.7+
评估:
- 标注质量: 存在一定程度的标记错误,但整体质量较高
- 错误率: 词元分割错误率约为5/1000 tokens,形态学标注准确率为94%
- 测试集: 使用GramEval2020 Taiga News作为测试集,UAS为96%,LAS为93%
文档: 提供详细的俄语使用文档和示例,可在natasha.github.io上查阅
下载链接: nerus_lenta.conllu.gz
搜集汇总
数据集介绍

构建方式
Nerus数据集的构建基于Lenta.ru新闻网站的约70万篇新闻文章,通过Natasha项目中的工具进行处理。具体而言,使用Razdel工具进行句子和词的分割,Slovnet BERT模型进行词性标注、句法树构建和命名实体识别(NER)标注,涵盖PER(人名)、LOC(地点)和ORG(组织)等类别。标注结果以CoNLL-U格式存储,确保了数据的标准化和可复现性。
特点
Nerus数据集的特点在于其大规模的标注数据和多层次的语义信息。该数据集不仅包含词性标注和句法结构,还涵盖了命名实体识别,为自然语言处理任务提供了丰富的语义信息。尽管在标注过程中存在一定的误差,但其整体质量较高,适用于多种语言处理任务的研究和应用。
使用方法
Nerus数据集可以通过Python API方便地加载和使用。用户可以通过pip安装nerus包,并使用提供的API加载数据集。数据集以gzip压缩的CoNLL-U格式存储,用户可以使用gunzip命令解压缩后直接查看数据。此外,Nerus还提供了丰富的文档和示例代码,帮助用户快速上手并进行数据分析和模型训练。
背景与挑战
背景概述
Nerus数据集是由Natasha项目团队创建的一个大型俄语语料库,包含了约70万篇来自Lenta.ru的新闻文章,并进行了词性标注(POS)、句法树和命名实体识别(NER)的标注,涵盖了人名(PER)、地点(LOC)和组织(ORG)等实体。该数据集的构建使用了Natasha项目中的工具,如Razdel用于句子与词的分割,Slovnet BERT模型用于词法、句法和NER的标注。Nerus数据集的创建旨在为俄语自然语言处理领域提供一个高质量的标注语料库,推动相关研究的发展。
当前挑战
尽管Nerus数据集在标注质量上表现出色,但仍存在一定的标注错误,尤其是在自动标注过程中。主要挑战包括:1) 标注错误的存在,尽管数据集质量较高,但自动标注的银标准数据集仍不可避免地存在错误;2) 数据集的构建过程中,如何确保标注的一致性和准确性是一个重要问题;3) 在处理大规模语料时,如何有效管理数据量和标注复杂性,确保数据集的可扩展性和实用性。此外,Nerus数据集在词法和句法标注上的准确性仍需进一步优化,以满足更高标准的研究需求。
常用场景
经典使用场景
Nerus数据集的经典使用场景主要集中在自然语言处理领域,特别是在俄语的词性标注、句法分析和命名实体识别(NER)任务中。该数据集通过丰富的标注信息,为研究人员提供了高质量的语料库,适用于训练和评估各种自然语言处理模型,如BERT等预训练语言模型。
实际应用
在实际应用中,Nerus数据集被广泛用于构建和优化俄语的自然语言处理系统,如信息抽取、文本分类和机器翻译等。其丰富的标注信息使得这些系统能够更准确地理解和处理俄语文本,从而在新闻分析、社交媒体监控和法律文本处理等领域发挥重要作用。
衍生相关工作
基于Nerus数据集,许多相关研究工作得以展开,包括改进俄语的词性标注算法、优化句法分析模型以及提升命名实体识别的准确性。此外,该数据集还激发了在多语言处理和跨语言迁移学习方面的研究,推动了俄语与其他语言在自然语言处理领域的协同发展。
以上内容由遇见数据集搜集并总结生成



