IlyaGusev/ru_news
收藏Hugging Face2023-03-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/IlyaGusev/ru_news
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: url
dtype: string
- name: text
dtype: string
- name: title
dtype: string
- name: source
dtype: string
- name: timestamp
dtype: uint64
splits:
- name: train
num_bytes: 12858731888
num_examples: 4137525
download_size: 3669747077
dataset_size: 12858731888
task_categories:
- text-generation
language:
- ru
size_categories:
- 1M<n<10M
---
# RuNews dataset
## Table of Contents
- [Table of Contents](#table-of-contents)
- [Description](#description)
- [Usage](#usage)
- [Data Instances](#data-instances)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
## Description
**Summary:** Dataset of news from several sources:
* [Lenta.ru by yutkin](https://github.com/yutkin/Lenta.Ru-News-Dataset)
* [Several sources by buriy](https://github.com/buriy/russian-nlp-datasets/releases)
* [ODS Newsviz Tass](https://github.com/newsviz/newsviz)
* [Taiga fontanka](https://tatianashavrina.github.io/taiga_site/)
* [News from Telegram contest](https://github.com/IlyaGusev/tgcontest)
**Script:** [create_ru_news.py](https://github.com/IlyaGusev/rulm/blob/master/data_processing/create_ru_news.py)
**Point of Contact:** [Ilya Gusev](ilya.gusev@phystech.edu)
**Languages:** Russian.
## Usage
Prerequisites:
```bash
pip install datasets zstandard jsonlines pysimdjson
```
Dataset iteration:
```python
from datasets import load_dataset
dataset = load_dataset('IlyaGusev/ru_news', split="train", streaming=True)
for example in dataset:
print(example["text"])
```
## Data Instances
```
{
"title": "Заместитель главы района в Якутии пожаловался на пьянство начальника",
"text": "Заместитель главы Нерюнгринского района Якутии Геннадий Ленц пожаловался руководителю республики Егору Борисову на своего начальника. Как рассказал Ленц 'Интерфаксу', Андрей Фитисов пьет на рабочем месте и 'уходит в многодневные загулы'...",
"timestamp": 1346284800,
"url": "https://lenta.ru/news/2012/08/30/alco/",
"source": "lenta"
}
```
## Personal and Sensitive Information
The dataset is not anonymized, so individuals' names can be found in the dataset. Information about the original authors is included in the dataset where possible.
---
数据集信息:
特征字段:
- 字段名:url,数据类型:字符串型
- 字段名:text,数据类型:字符串型
- 字段名:title,数据类型:字符串型
- 字段名:source,数据类型:字符串型
- 字段名:timestamp,数据类型:无符号64位整数型(uint64)
数据集划分:
- 划分集名称:train(训练集),字节占用量:12858731888,样本数量:4137525
下载大小:3669747077
数据集存储总大小:12858731888
任务类别:
- 文本生成(text-generation)
语言:
- 俄语(ru)
规模类别:
- 100万 < 样本数 < 1000万
---
# RuNews数据集
## 目录
- [目录](#table-of-contents)
- [数据集说明](#description)
- [使用方法](#usage)
- [数据示例](#data-instances)
- [个人与敏感信息](#personal-and-sensitive-information)
## 数据集说明
**摘要:** 本数据集整合多来源新闻数据:
* [Lenta.ru新闻库(由yutkin维护)](https://github.com/yutkin/Lenta.Ru-News-Dataset)
* [多源俄语自然语言处理数据集(由buriy构建)](https://github.com/buriy/russian-nlp-datasets/releases)
* [ODS Newsviz塔斯社数据集](https://github.com/newsviz/newsviz)
* [Taiga Fontanka新闻库](https://tatianashavrina.github.io/taiga_site/)
* [Telegram竞赛新闻数据集](https://github.com/IlyaGusev/tgcontest)
**处理脚本:** [create_ru_news.py](https://github.com/IlyaGusev/rulm/blob/master/data_processing/create_ru_news.py)
**联系方式:** [伊利亚·古谢夫(Ilya Gusev)](ilya.gusev@phystech.edu)
**使用语言:** 俄语。
## 使用方法
### 前置依赖
bash
pip install datasets zstandard jsonlines pysimdjson
### 数据集迭代示例
python
from datasets import load_dataset
dataset = load_dataset('IlyaGusev/ru_news', split="train", streaming=True)
for example in dataset:
print(example["text"])
## 数据示例
{
"title": "雅库特涅尤恩格里区副区长举报区长酗酒",
"text": "雅库特共和国涅尤恩格里区副区长根纳季·连茨向共和国领导人叶戈尔·鲍里索夫举报其上级区长。连茨向'国际文传电讯社'透露,安德烈·菲季索夫在工作场所酗酒,且'连续多日离岗狂欢'...",
"timestamp": 1346284800,
"url": "https://lenta.ru/news/2012/08/30/alco/",
"source": "lenta"
}
## 个人与敏感信息
本数据集未做匿名化处理,数据中包含个人姓名。若原始数据中存在作者信息,亦会一并保留至本数据集内。
提供机构:
IlyaGusev
原始信息汇总
数据集概述
基本信息
- 名称: RuNews dataset
- 语言: 俄语(ru)
- 任务类别: 文本生成
- 大小类别: 1M<n<10M
数据集特征
- 特征列表:
url: 字符串类型text: 字符串类型title: 字符串类型source: 字符串类型timestamp: 无符号整数类型(uint64)
数据集拆分
- 训练集:
- 示例数量: 4137525
- 数据大小: 12858731888字节
下载信息
- 下载大小: 3669747077字节
- 数据集大小: 12858731888字节
数据实例
- 示例内容: json { "title": "Заместитель главы района в Якутии пожаловался на пьянство начальника", "text": "Заместитель главы Нерюнгринского района Якутии Геннадий Ленц пожаловался руководителю республики Егору Борисову на своего начальника. Как рассказал Ленц Интерфаксу, Андрей Фитисов пьет на рабочем месте и уходит в многодневные загулы...", "timestamp": 1346284800, "url": "https://lenta.ru/news/2012/08/30/alco/", "source": "lenta" }
敏感信息
- 信息类型: 未匿名化,包含个人姓名
- 原始作者信息: 尽可能包含在数据集中
搜集汇总
数据集介绍

构建方式
在新闻文本挖掘领域,RuNews数据集通过整合多个权威来源构建而成,其核心方法在于系统性地汇集了来自Lenta.ru、多个俄罗斯自然语言处理数据集、ODS Newsviz Tass、Taiga fontanka以及Telegram竞赛新闻等渠道的原始资料。构建过程采用专门编写的脚本进行数据清洗与格式统一,确保了不同来源新闻条目在结构上的一致性,最终形成一个包含逾四百万条实例的大规模俄语新闻语料库。
特点
该数据集以其纯粹的俄语新闻文本为显著特征,每条记录均包含标题、正文、来源、时间戳及原始URL等结构化字段,为研究者提供了丰富的元数据信息。其规模庞大,覆盖时间跨度广,且来源多样,涵盖了从主流新闻媒体到社交媒体平台的广泛内容,这为分析俄罗斯媒体语言风格、话题演变及信息传播模式创造了理想条件。
使用方法
使用RuNews数据集前,需安装指定的Python依赖库。通过Hugging Face的datasets库,用户可以便捷地以流式或批量方式加载数据。典型应用场景包括俄语语言模型预训练、新闻文本分类、时间序列分析以及信息抽取研究。研究者可直接迭代数据集中的实例,访问其文本与元数据字段,从而开展深入的定量与定性分析。
背景与挑战
背景概述
在自然语言处理领域,大规模高质量文本语料库是推动语言模型发展的基石。RuNews数据集由Ilya Gusev等人于2022年前后整合构建,其核心研究问题聚焦于为俄语自然语言处理任务提供丰富、多样化的新闻文本资源。该数据集汇集了Lenta.ru、TASS等多个权威新闻源的逾四百万条数据,涵盖了广泛的社会议题与时效信息,显著提升了俄语文本生成、摘要和分类等下游任务的模型性能,对斯拉夫语系语言技术研究产生了深远影响。
当前挑战
RuNews数据集旨在应对俄语新闻文本生成与理解中的领域挑战,包括处理复杂的语言形态、丰富的文化语境以及动态演变的新闻叙事结构。在构建过程中,研究人员面临多重困难:整合异构数据源需统一时间戳、来源标注等元数据格式;确保文本质量需过滤重复与低质内容;同时,数据包含未匿名化的个人信息,引发了隐私与伦理使用的考量,这些因素共同构成了数据集构建与应用的实质性障碍。
常用场景
经典使用场景
在俄语自然语言处理领域,RuNews数据集作为大规模新闻文本资源,其经典使用场景聚焦于语言模型的预训练与微调。该数据集整合了多个权威新闻来源,覆盖广泛的社会议题与时事动态,为研究者提供了丰富且结构化的俄语文本语料。通过高效的数据流处理机制,模型能够从中学习俄语的语法结构、词汇语义及篇章逻辑,从而显著提升在俄语下游任务中的表现,尤其在文本生成、摘要和分类等任务中展现出卓越的适应性。
解决学术问题
RuNews数据集有效解决了俄语自然语言处理中数据稀缺与质量不均的学术难题。传统上,俄语资源相较于英语等语言较为有限,制约了模型在俄语语境下的深度理解与生成能力。该数据集通过聚合多样化的新闻来源,提供了大规模、高质量的标注文本,支持研究者开展语言模型训练、跨领域迁移学习及低资源语言处理等前沿研究。其意义在于推动了俄语NLP技术的平等发展,为多语言人工智能系统的构建奠定了坚实的数据基础,促进了学术界的跨文化技术交流。
衍生相关工作
RuNews数据集衍生了一系列经典的俄语自然语言处理工作,其中最具代表性的是基于Transformer架构的俄语预训练模型,如RuBERT和GPT风格的俄语生成模型。这些模型利用该数据集进行大规模预训练,随后在机器翻译、文本分类及问答系统等任务中取得了突破性进展。相关研究进一步拓展了多模态应用,例如结合新闻文本与图像数据构建跨媒体分析工具。这些工作不仅丰富了俄语NLP的技术生态,也为全球多语言处理研究提供了可复现的范例与基准。
以上内容由遇见数据集搜集并总结生成



