five

r9zhenka/telegram-post-comments_data

收藏
Hugging Face2026-03-18 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/r9zhenka/telegram-post-comments_data
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-nc-sa-4.0 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* dataset_info: features: - name: post dtype: string - name: comment dtype: string splits: - name: train num_bytes: 15715051 num_examples: 8246 - name: validation num_bytes: 1926996 num_examples: 1034 - name: test num_bytes: 1963551 num_examples: 1020 download_size: 5520484 dataset_size: 19605598 task_categories: - text-generation language: - ru size_categories: - 1K<n<10K --- --- language: - ru license: cc-by-nc-sa-4.0 task_categories: - text-generation tags: - telegram - comments - style-transfer - fine-tuning - russian - peft - lora size_categories: - 10K<n<100K --- # Telegram Post-Comment Pairs (Russian) ## Описание Датасет пар «пост — комментарий» из публичных русскоязычных Telegram-каналов. Предназначен для задачи стилевой адаптации генеративных языковых моделей: модель получает текст поста и должна сгенерировать комментарий, стилистически согласованный с реальными пользовательскими откликами. ## Структура | Split | Примеров | |------------|----------| | train | 8 246 | | validation | 1 034 | | test | 1 020 | Каждый пример содержит два поля: - `post` — текст поста из Telegram-канала - `comment` — текст пользовательского комментария к этому посту ## Источники данных Данные собраны из семи публичных Telegram-каналов различной тематики (новости Санкт-Петербурга, научно-популярный контент, материалы по искусственному интеллекту и математике). Для каждого поста сохранялось до 10 комментариев. ## Предобработка - Удалены посты короче 5 слов - Отфильтрованы комментарии за пределами диапазона 5–70 слов - Эмодзи заменены текстовыми описаниями на русском языке (формат `эмодзи_описание_`) - Из комментариев удалены ссылки (в постах ссылки заменены тегом `[ссылка]`) - Удалены @упоминания, email-адреса, рекламные блоки (ОГРН/ИНН/erid) - Средняя длина комментария после очистки — 20.5 слов ## Разбиение на сплиты Разбиение выполнено на уровне постов (post-level split) в соотношении 80/10/10, чтобы исключить утечку данных: один и тот же пост не может оказаться одновременно в тренировочной и валидационной/тестовой выборках. ## Использование ```python from datasets import load_dataset ds = load_dataset("r9zhenka/telegram-post-comments_data") print(ds["train"][0]) # {'post': '...', 'comment': '...'} ``` ## Формулировка задачи Задача формулируется как каузальное языковое моделирование (causal LM). Обучающий пример формируется в виде последовательности: ``` Пост: <текст поста> Комментарий: <текст комментария> ``` Функция потерь вычисляется только по токенам комментария; токены поста используются как контекст и маскируются при обучении. ## Цитирование ```bibtex @inproceedings{r9zhenka_peft_style_2025, title={Сравнение full fine-tuning и LoRA для стилевой адаптации генеративных моделей на русскоязычных корпусах.}, author={<Позже>}, booktitle={<>}, year={2026}, url={https://huggingface.co/datasets/r9zhenka/telegram-post-comments_data} } ``` ## Лицензия CC BY-NC-SA 4.0 — допускается использование в некоммерческих исследовательских целях с указанием авторства.
提供机构:
r9zhenka
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作