r9zhenka/telegram-post-comments_data
收藏Hugging Face2026-03-18 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/r9zhenka/telegram-post-comments_data
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-nc-sa-4.0
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
dataset_info:
features:
- name: post
dtype: string
- name: comment
dtype: string
splits:
- name: train
num_bytes: 15715051
num_examples: 8246
- name: validation
num_bytes: 1926996
num_examples: 1034
- name: test
num_bytes: 1963551
num_examples: 1020
download_size: 5520484
dataset_size: 19605598
task_categories:
- text-generation
language:
- ru
size_categories:
- 1K<n<10K
---
---
language:
- ru
license: cc-by-nc-sa-4.0
task_categories:
- text-generation
tags:
- telegram
- comments
- style-transfer
- fine-tuning
- russian
- peft
- lora
size_categories:
- 10K<n<100K
---
# Telegram Post-Comment Pairs (Russian)
## Описание
Датасет пар «пост — комментарий» из публичных русскоязычных Telegram-каналов. Предназначен для задачи стилевой адаптации генеративных языковых моделей: модель получает текст поста и должна сгенерировать комментарий, стилистически согласованный с реальными пользовательскими откликами.
## Структура
| Split | Примеров |
|------------|----------|
| train | 8 246 |
| validation | 1 034 |
| test | 1 020 |
Каждый пример содержит два поля:
- `post` — текст поста из Telegram-канала
- `comment` — текст пользовательского комментария к этому посту
## Источники данных
Данные собраны из семи публичных Telegram-каналов различной тематики (новости Санкт-Петербурга, научно-популярный контент, материалы по искусственному интеллекту и математике). Для каждого поста сохранялось до 10 комментариев.
## Предобработка
- Удалены посты короче 5 слов
- Отфильтрованы комментарии за пределами диапазона 5–70 слов
- Эмодзи заменены текстовыми описаниями на русском языке (формат `эмодзи_описание_`)
- Из комментариев удалены ссылки (в постах ссылки заменены тегом `[ссылка]`)
- Удалены @упоминания, email-адреса, рекламные блоки (ОГРН/ИНН/erid)
- Средняя длина комментария после очистки — 20.5 слов
## Разбиение на сплиты
Разбиение выполнено на уровне постов (post-level split) в соотношении 80/10/10, чтобы исключить утечку данных: один и тот же пост не может оказаться одновременно в тренировочной и валидационной/тестовой выборках.
## Использование
```python
from datasets import load_dataset
ds = load_dataset("r9zhenka/telegram-post-comments_data")
print(ds["train"][0])
# {'post': '...', 'comment': '...'}
```
## Формулировка задачи
Задача формулируется как каузальное языковое моделирование (causal LM). Обучающий пример формируется в виде последовательности:
```
Пост: <текст поста> Комментарий: <текст комментария>
```
Функция потерь вычисляется только по токенам комментария; токены поста используются как контекст и маскируются при обучении.
## Цитирование
```bibtex
@inproceedings{r9zhenka_peft_style_2025,
title={Сравнение full fine-tuning и LoRA для стилевой адаптации генеративных моделей на русскоязычных корпусах.},
author={<Позже>},
booktitle={<>},
year={2026},
url={https://huggingface.co/datasets/r9zhenka/telegram-post-comments_data}
}
```
## Лицензия
CC BY-NC-SA 4.0 — допускается использование в некоммерческих исследовательских целях с указанием авторства.
提供机构:
r9zhenka



