march228/factual-multiagent-roleplay-ft-ru
收藏Hugging Face2026-03-24 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/march228/factual-multiagent-roleplay-ft-ru
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ru
license: other
pretty_name: Русский factual multiagent finetuning dataset
annotations_creators:
- machine-generated
multilinguality:
- monolingual
task_categories:
- text-generation
task_ids:
- open-domain-qa
- question-answering
size_categories:
- 1K<n<10K
tags:
- russian
- synthetic
- finetuning
- roleplay
- persona
- instruction-following
- factual
---
# march228/factual-multiagent-roleplay-ft-ru
Небольшой русскоязычный synthetic finetuning dataset для обучения модели следованию ролевым системным инструкциям личности при сохранении фактической опоры на контекст.
## Что это за датасет
Этот набор сделан как instruction / finetuning dataset, а не как benchmark.
В каждой записи есть:
- плотный `system` с персоной и тоном;
- `context`, на который нужно опираться;
- пользовательский `question`;
- внутренние `thoughts`;
- финальный `answer`.
Основная цель датасета:
- тренировать следование ролевым инструкциям и личности;
- удерживать живой человеческий стиль;
- при этом не терять factual grounding в контексте.
## Текущее состояние
Сейчас в базе не 30k, а `902` готовых примеров.
В будущем планируется обновление.
## Поля
- `system`
- `context`
- `question`
- `thought_text`
- `thought1..thought5`
- `answer`
- `task_type`
- `source_kind`
- `negative_mode`
- `model`
- `judge_pass`
- `judge_score`
- `judge_reason`
## Типы задач
- `direct_fact`: `199`
- `definition_from_context`: `118`
- `cause_effect`: `100`
- `comparison_from_context`: `99`
- `summary_dense`: `90`
- `not_in_context`: `89`
- `timeline_order`: `72`
- `false_premise`: `72`
- `ambiguous_reference`: `63`
## Источник и характер данных
- язык: русский
- источник контекста в текущей версии: в основном wiki-derived factual context
- генерация: multi-agent synthetic pipeline
- набор подходит скорее для SFT / instruction tuning, чем для оценки качества моделей
## Ограничения
- synthetic / teacher-generated data
- возможны артефакты teacher-моделей
- это не gold benchmark
- лицензия пока выставлена консервативно как `other`, пока не принято финальное решение по публичной лицензии
## Загрузка
```python
from datasets import load_dataset
ds = load_dataset('march228/factual-multiagent-roleplay-ft-ru')
print(ds['train'][0])
```
提供机构:
march228



