Копрус новостей

github2020-04-13 更新2024-05-31 收录

下载链接：

https://github.com/fateevda/creating_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于课程Corpus Linguistics的文本数据集，数据来源于https://ria.ru/，每条新闻存储在单独的文本文件中，按类型分类，并进行了去重和搜索功能优化。

A text dataset designed for the course Corpus Linguistics, sourced from https://ria.ru/. Each news article is stored in a separate text file, categorized by type, and optimized for deduplication and search functionality.

创建时间：

2020-03-09

原始信息汇总

数据集概述

数据来源

数据来源于网站 https://ria.ru/。

数据存储

每条新闻存储于单独的文本文件中。
新闻根据类别进行分类。

数据处理

已删除4个重复新闻，示例见 duplicate.txt。

搜索功能

支持关键词搜索，例如“Путин”有260条新闻，“Иран”有79条新闻，“Путин и Иран”有3条新闻。

数据集结构

类别包括：[В мире, Экономика, Общество, Происшествия]。
训练集大小：2669条；测试集大小：668条。
准确率：0.86。

关键词分析

通过PMI指标分析，列出了20个常见词组，如“hyundai solaris”, “астанинскому формату”等。
这些词组反映了新闻内容，涉及欧洲歌唱大赛、叙利亚冲突和新冠病毒等主题。

搜集汇总

数据集介绍

构建方式

针对教育文本语料库构建的需求，该数据集以ria.ru网站上的新闻内容为基础，构建了一个用于课程《语料库语言学》的教学文本语料库。每一条新闻都被存储在单独的文本文件中，并根据新闻的体裁进行了分类。

特点

本数据集经过严格的质量控制，对存在的新闻副本进行了清除，确保了数据集的纯净性。数据集支持基于关键词的搜索功能，便于用户快速定位相关新闻。此外，数据集包含了四个主要的新闻类别，并基于这些类别进行了训练集和测试集的划分，实现了86%的分类准确率。通过PMI指标分析，数据集揭示了当前时期的热点话题和关键词。

使用方法

用户可以直接访问该数据集，通过关键词搜索功能检索感兴趣的新闻。数据集的文件结构清晰，便于不同类别新闻的分别处理和学习。此外，用户可以利用已划分的训练集和测试集，进一步开展文本分类等自然语言处理任务的研究。

背景与挑战

背景概述

‘Копрус новостей’是一个为课程‘语料库语言学’设计的俄语文本数据集。该数据集的构建源于ria.ru网站，旨在为研究人员提供一份详尽的新闻文本资源。其创建体现了语料库语言学领域对大规模文本数据的需求，以便进行语言分析和研究。自创建以来，该数据集已被广泛用于语言处理任务，对自然语言处理、信息检索以及文本挖掘等领域产生了显著影响。

当前挑战

在构建‘Копрус новостей’数据集的过程中，研究人员面临了诸多挑战。首先，数据集的构建需要处理大量文本数据，确保数据的多样性和代表性。其次，数据集的预处理阶段涉及去除重复内容，保证每条新闻的唯一性。此外，数据集的分类问题也是一大挑战，尽管现有的基准分类已达到86%的准确率，但如何进一步提高分类准确度，以及如何更好地捕捉新闻中的语义信息，仍是当前研究的重要课题。

常用场景

经典使用场景

在语料库语言学领域的教学与研究中，‘Копрус новостей’作为训练文本语料库，其经典使用场景在于为各类文本分析任务提供基础数据支持，如文本分类、情感分析、关键词提取等，进而促进学生对语言规律的理解和掌握。

解决学术问题

该数据集有效解决了学术研究中对大规模、多类别文本数据的需求，使得研究者能够基于此数据集对新闻文本进行深入分析，探究不同类别新闻的语言特征，以及各类社会事件在新闻报道中的呈现方式和频率。

衍生相关工作

基于该数据集，研究者已衍生出多项相关工作，包括但不限于新闻文本自动分类、情感倾向性分析、关键词提取与主题建模等，为后续的文本挖掘和自然语言处理研究奠定了基础。

以上内容由遇见数据集搜集并总结生成