Datasets for evaluation of keyword extraction in Russian
收藏github2024-04-16 更新2024-05-31 收录
下载链接:
https://github.com/mannefedov/ru_kw_eval_datasets
下载链接
链接失效反馈官方服务:
资源简介:
用于评估俄语关键词提取的数据集。数据集存储在/data目录中,采用.jsonlines格式,每行代表一个文档。数据来源包括俄罗斯今日、Habrahabr、NG和Cyberleninka。每个文件的结构包括文档的URL、内容、标题、摘要或摘要以及关键词。
A dataset for evaluating Russian keyword extraction. The dataset is stored in the /data directory in JSON Lines format, with each line representing a single document. The data sources include Russia Today, Habrahabr, NG, and Cyberleninka. Each document entry contains the document's URL, content, title, abstract (or summary), and keywords.
创建时间:
2018-04-25
原始信息汇总
Ru_kw_eval_datasets 数据集概述
数据集基本信息
- 名称: 用于评估俄语关键词提取的数据集
- 描述: 该数据集旨在用于评估俄语关键词提取的效果。
- 作者: Mikhail Nefedov
数据集内容
- 存储位置: 数据集文件存储于
/data目录下。 - 文件格式: 使用
.jsonlines格式存储,每行代表一个 JSON 对象。 - 数据分割: 由于 GitHub 文件大小限制,数据集被分割成多个部分。
数据来源
- RussiaToday: 来自 https://russian.rt.com/
- NG: 来自 http://www.ng.ru/
- Habrahabr: 来自 https://habr.com/
- Cyberleninka: 来自 https://cyberleninka.ru/
数据结构
RussiaToday, NG, Habrahabr 文件结构
python {url:https://url.here, content: Text of the document here, title: Title of the document here, summary: short summary of the document here, keywords: [key, words, here]}
Cyberleninka 文件结构
python {url:https://url.here, content: Text of the document here, title: Title of the document here, abstract: abstract of the document here, keywords: [key, words, here]}
数据集特点
- Cyberleninka 文档: 由 PDF 转换为纯文本,可能包含错误和随机换行。
- 关键词提取: 关键词是手动从转换后的文档中提取的,可能存在遗漏。
联系方式
- 电子邮件: manefedov26@gmail.com
搜集汇总
数据集介绍

构建方式
该数据集的构建基于多个俄罗斯语来源的文档,包括新闻网站和学术平台,如RT、Habr、NG和Cyberleninka。每个文档以jsonlines格式存储,每行代表一个文档,包含文档的URL、内容、标题、摘要或摘要、以及手动提取的关键词。对于Cyberleninka的文档,由于是从PDF转换而来,可能存在文本转换错误和随机换行。关键词的提取是手动完成的,可能存在遗漏。
特点
该数据集的主要特点在于其多样化的数据来源和详细的文档结构,涵盖了新闻和学术内容,为关键词提取算法的评估提供了丰富的语料。此外,数据集中的关键词是手动提取的,确保了关键词的准确性,尽管可能存在遗漏。数据集的格式为jsonlines,便于处理和分析。
使用方法
使用该数据集时,用户可以从/data目录中获取所有数据,数据以jsonlines格式存储,每行一个文档。用户可以根据需要解析这些json文件,提取文档的URL、内容、标题、摘要或摘要、以及关键词。该数据集特别适合用于评估和优化俄语关键词提取算法,通过对比算法提取的关键词与手动标注的关键词,可以有效评估算法的性能。
背景与挑战
背景概述
关键词提取技术在自然语言处理领域中占据重要地位,尤其在信息检索和文本摘要等任务中具有广泛应用。针对俄语的关键词提取研究相对较少,因此Mikhail Nefedov创建了‘Datasets for evaluation of keyword extraction in Russian’数据集,旨在为俄语关键词提取算法提供评估基准。该数据集包含了从多个俄语新闻和学术资源(如RT、Habr、NG和Cyberleninka)中提取的文档,每篇文档均包含标题、内容、摘要或摘要以及手动标注的关键词。这一数据集的发布填补了俄语关键词提取领域的空白,为研究人员提供了宝贵的资源。
当前挑战
该数据集在构建过程中面临多项挑战。首先,从PDF文档中提取文本并转换为结构化数据时,可能出现格式错误和随机换行问题,这增加了数据预处理的复杂性。其次,手动标注关键词虽然确保了标注的准确性,但也带来了巨大的工作量和潜在的遗漏风险。此外,由于俄语的语法结构复杂,关键词提取算法在处理俄语文本时可能面临更高的难度,尤其是在处理多义词和上下文依赖性强的词汇时。这些挑战使得该数据集在评估关键词提取算法时需要更加谨慎和细致的分析。
常用场景
经典使用场景
在自然语言处理领域,特别是针对俄语的关键词提取任务,该数据集提供了一个宝贵的资源。通过包含来自多个知名俄语网站的文档,如RussiaToday、Habr、NG和Cyberleninka,数据集为研究者提供了一个多样化的文本语料库。每个文档不仅包含完整的文本内容,还附带了手动提取的关键词,这使得研究者能够直接评估和比较不同关键词提取算法在俄语环境下的表现。
解决学术问题
该数据集主要解决了在俄语环境下关键词提取算法的评估问题。由于俄语的语法结构和词汇特性与英语等语言存在显著差异,现有的关键词提取方法在俄语中的表现往往不尽如人意。通过提供一个包含丰富文本和手动标注关键词的数据集,研究者能够更准确地评估和改进关键词提取算法,从而推动俄语自然语言处理技术的发展。
衍生相关工作
基于该数据集,研究者已开展了一系列相关工作,包括但不限于俄语关键词提取算法的改进、跨语言关键词提取模型的构建以及多任务学习在关键词提取中的应用。这些研究不仅提升了俄语关键词提取的准确性,还为其他低资源语言的关键词提取提供了借鉴和参考。此外,该数据集还激发了对俄语文本特征的深入研究,推动了俄语自然语言处理领域的整体进步。
以上内容由遇见数据集搜集并总结生成



