Копрус новостей
收藏github2020-04-13 更新2024-05-31 收录
下载链接:
https://github.com/fateevda/creating_dataset
下载链接
链接失效反馈官方服务:
资源简介:
一个用于课程Corpus Linguistics的文本数据集,数据来源于https://ria.ru/,每条新闻存储在单独的文本文件中,按类型分类,并进行了去重和搜索功能优化。
A text dataset designed for the course Corpus Linguistics, sourced from https://ria.ru/. Each news article is stored in a separate text file, categorized by type, and optimized for deduplication and search functionality.
创建时间:
2020-03-09
原始信息汇总
数据集概述
数据来源
- 数据来源于网站 https://ria.ru/。
数据存储
- 每条新闻存储于单独的文本文件中。
- 新闻根据类别进行分类。
数据处理
- 已删除4个重复新闻,示例见
duplicate.txt。
搜索功能
- 支持关键词搜索,例如“Путин”有260条新闻,“Иран”有79条新闻,“Путин и Иран”有3条新闻。
数据集结构
- 类别包括:[В мире, Экономика, Общество, Происшествия]。
- 训练集大小:2669条;测试集大小:668条。
- 准确率:0.86。
关键词分析
- 通过PMI指标分析,列出了20个常见词组,如“hyundai solaris”, “астанинскому формату”等。
- 这些词组反映了新闻内容,涉及欧洲歌唱大赛、叙利亚冲突和新冠病毒等主题。
搜集汇总
数据集介绍

构建方式
针对教育文本语料库构建的需求,该数据集以ria.ru网站上的新闻内容为基础,构建了一个用于课程《语料库语言学》的教学文本语料库。每一条新闻都被存储在单独的文本文件中,并根据新闻的体裁进行了分类。
特点
本数据集经过严格的质量控制,对存在的新闻副本进行了清除,确保了数据集的纯净性。数据集支持基于关键词的搜索功能,便于用户快速定位相关新闻。此外,数据集包含了四个主要的新闻类别,并基于这些类别进行了训练集和测试集的划分,实现了86%的分类准确率。通过PMI指标分析,数据集揭示了当前时期的热点话题和关键词。
使用方法
用户可以直接访问该数据集,通过关键词搜索功能检索感兴趣的新闻。数据集的文件结构清晰,便于不同类别新闻的分别处理和学习。此外,用户可以利用已划分的训练集和测试集,进一步开展文本分类等自然语言处理任务的研究。
背景与挑战
背景概述
‘Копрус новостей’是一个为课程‘语料库语言学’设计的俄语文本数据集。该数据集的构建源于ria.ru网站,旨在为研究人员提供一份详尽的新闻文本资源。其创建体现了语料库语言学领域对大规模文本数据的需求,以便进行语言分析和研究。自创建以来,该数据集已被广泛用于语言处理任务,对自然语言处理、信息检索以及文本挖掘等领域产生了显著影响。
当前挑战
在构建‘Копрус новостей’数据集的过程中,研究人员面临了诸多挑战。首先,数据集的构建需要处理大量文本数据,确保数据的多样性和代表性。其次,数据集的预处理阶段涉及去除重复内容,保证每条新闻的唯一性。此外,数据集的分类问题也是一大挑战,尽管现有的基准分类已达到86%的准确率,但如何进一步提高分类准确度,以及如何更好地捕捉新闻中的语义信息,仍是当前研究的重要课题。
常用场景
经典使用场景
在语料库语言学领域的教学与研究中,‘Копрус новостей’作为训练文本语料库,其经典使用场景在于为各类文本分析任务提供基础数据支持,如文本分类、情感分析、关键词提取等,进而促进学生对语言规律的理解和掌握。
解决学术问题
该数据集有效解决了学术研究中对大规模、多类别文本数据的需求,使得研究者能够基于此数据集对新闻文本进行深入分析,探究不同类别新闻的语言特征,以及各类社会事件在新闻报道中的呈现方式和频率。
衍生相关工作
基于该数据集,研究者已衍生出多项相关工作,包括但不限于新闻文本自动分类、情感倾向性分析、关键词提取与主题建模等,为后续的文本挖掘和自然语言处理研究奠定了基础。
以上内容由遇见数据集搜集并总结生成



