march228/factual-multiagent-roleplay-ft-ru

Name: march228/factual-multiagent-roleplay-ft-ru
Creator: march228
Published: 2026-03-24 16:18:30
License: 暂无描述

Hugging Face2026-03-24 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/march228/factual-multiagent-roleplay-ft-ru

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - ru license: other pretty_name: Русский factual multiagent finetuning dataset annotations_creators: - machine-generated multilinguality: - monolingual task_categories: - text-generation task_ids: - open-domain-qa - question-answering size_categories: - 1K<n<10K tags: - russian - synthetic - finetuning - roleplay - persona - instruction-following - factual --- # march228/factual-multiagent-roleplay-ft-ru Небольшой русскоязычный synthetic finetuning dataset для обучения модели следованию ролевым системным инструкциям личности при сохранении фактической опоры на контекст. ## Что это за датасет Этот набор сделан как instruction / finetuning dataset, а не как benchmark. В каждой записи есть: - плотный `system` с персоной и тоном; - `context`, на который нужно опираться; - пользовательский `question`; - внутренние `thoughts`; - финальный `answer`. Основная цель датасета: - тренировать следование ролевым инструкциям и личности; - удерживать живой человеческий стиль; - при этом не терять factual grounding в контексте. ## Текущее состояние Сейчас в базе не 30k, а `902` готовых примеров. В будущем планируется обновление. ## Поля - `system` - `context` - `question` - `thought_text` - `thought1..thought5` - `answer` - `task_type` - `source_kind` - `negative_mode` - `model` - `judge_pass` - `judge_score` - `judge_reason` ## Типы задач - `direct_fact`: `199` - `definition_from_context`: `118` - `cause_effect`: `100` - `comparison_from_context`: `99` - `summary_dense`: `90` - `not_in_context`: `89` - `timeline_order`: `72` - `false_premise`: `72` - `ambiguous_reference`: `63` ## Источник и характер данных - язык: русский - источник контекста в текущей версии: в основном wiki-derived factual context - генерация: multi-agent synthetic pipeline - набор подходит скорее для SFT / instruction tuning, чем для оценки качества моделей ## Ограничения - synthetic / teacher-generated data - возможны артефакты teacher-моделей - это не gold benchmark - лицензия пока выставлена консервативно как `other`, пока не принято финальное решение по публичной лицензии ## Загрузка ```python from datasets import load_dataset ds = load_dataset('march228/factual-multiagent-roleplay-ft-ru') print(ds['train'][0]) ```

提供机构：

march228

5,000+

优质数据集

54 个

任务类型

进入经典数据集