five

march228/factual-multiagent-roleplay-ft-ru

收藏
Hugging Face2026-03-24 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/march228/factual-multiagent-roleplay-ft-ru
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ru license: other pretty_name: Русский factual multiagent finetuning dataset annotations_creators: - machine-generated multilinguality: - monolingual task_categories: - text-generation task_ids: - open-domain-qa - question-answering size_categories: - 1K<n<10K tags: - russian - synthetic - finetuning - roleplay - persona - instruction-following - factual --- # march228/factual-multiagent-roleplay-ft-ru Небольшой русскоязычный synthetic finetuning dataset для обучения модели следованию ролевым системным инструкциям личности при сохранении фактической опоры на контекст. ## Что это за датасет Этот набор сделан как instruction / finetuning dataset, а не как benchmark. В каждой записи есть: - плотный `system` с персоной и тоном; - `context`, на который нужно опираться; - пользовательский `question`; - внутренние `thoughts`; - финальный `answer`. Основная цель датасета: - тренировать следование ролевым инструкциям и личности; - удерживать живой человеческий стиль; - при этом не терять factual grounding в контексте. ## Текущее состояние Сейчас в базе не 30k, а `902` готовых примеров. В будущем планируется обновление. ## Поля - `system` - `context` - `question` - `thought_text` - `thought1..thought5` - `answer` - `task_type` - `source_kind` - `negative_mode` - `model` - `judge_pass` - `judge_score` - `judge_reason` ## Типы задач - `direct_fact`: `199` - `definition_from_context`: `118` - `cause_effect`: `100` - `comparison_from_context`: `99` - `summary_dense`: `90` - `not_in_context`: `89` - `timeline_order`: `72` - `false_premise`: `72` - `ambiguous_reference`: `63` ## Источник и характер данных - язык: русский - источник контекста в текущей версии: в основном wiki-derived factual context - генерация: multi-agent synthetic pipeline - набор подходит скорее для SFT / instruction tuning, чем для оценки качества моделей ## Ограничения - synthetic / teacher-generated data - возможны артефакты teacher-моделей - это не gold benchmark - лицензия пока выставлена консервативно как `other`, пока не принято финальное решение по публичной лицензии ## Загрузка ```python from datasets import load_dataset ds = load_dataset('march228/factual-multiagent-roleplay-ft-ru') print(ds['train'][0]) ```
提供机构:
march228
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作