efimdg/ru-banking-100k-synthetic
收藏Hugging Face2025-12-09 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/efimdg/ru-banking-100k-synthetic
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- text-generation
- question-answering
language:
- ru
tags:
- finance
- banking
- synthetic
size_categories:
- 10k<n<100k
---
# Russian Banking Support Dataset (100k Synthetic)
This dataset contains **100,000 high-quality question-answer pairs** simulating customer support scenarios in Russian banks. It covers complex topics like **115-FZ (AML), Escrow accounts, Loans, Sanctions, and SBP transfers**.
## Origin & Quality
This dataset was generated using a custom high-performance pipeline designed for **zero hallucinations** and deep context retention.
- **Method:** Knowledge Distillation with Entropy Deduplication.
- **Goal:** To provide legally accurate and context-aware responses for FinTech applications in the Russian market.
## Dataset Structure
File format: `.jsonl`
Fields:
- `instruction`: User query (varied tones: formal, emotional, short).
- `output`: Assistant response (legally accurate, empathetic, context-aware).
## Key Features
1. **Legal Accuracy:** Correctly handles Russian specific regulations (115-FZ, Central Bank rules).
2. **Complex Intents:** Handles double intents (e.g., "How to block card AND return money?").
3. **Native Context:** Optimized for Russian banking specifics (SBP, Mir cards, regional laws).
4. **Cleaned:** Rigorously filtered for artifacts.
## Usage
Perfect for fine-tuning local LLMs (Llama-3, Qwen, Mistral) for FinTech support bots or RAG systems.
## Author
Generated by **Efim D.**.
https://t.me/efimdg
https://t.me/fortuna_ai_dev
---
# Описание на русском
Этот датасет содержит **100 000 пар "вопрос-ответ"** высокого качества, моделирующих работу техподдержки российских банков. Охватывает сложные темы: **115-ФЗ, эскроу-счета, кредиты, санкционные ограничения, переводы СБП**.
## Происхождение и качество
Датасет сгенерирован с использованием кастомного пайплайна, оптимизированного для **отсутствия галлюцинаций** и удержания сложного контекста.
- **Метод:** Дистилляция знаний с энтропийной дедупликацией.
- **Цель:** Предоставить юридически точные и контекстуально верные ответы для FinTech-приложений на российском рынке.
## Структура
Формат: `.jsonl`
Поля:
- `instruction`: Запрос пользователя (разные тональности: официально, эмоционально, кратко).
- `output`: Ответ ассистента (юридически точный, эмпатичный, учитывающий контекст).
## Ключевые особенности
1. **Юридическая точность:** Корректная трактовка 115-ФЗ, правил ЦБ РФ.
2. **Сложные интенты:** Обработка двойных запросов (например, "Как заблокировать карту И вернуть деньги?").
3. **Локальный контекст:** Учет специфики РФ (СБП, карты МИР, региональное законодательство).
4. **Чистота:** Данные отфильтрованы от артефактов и мусора.
## Применение
Идеально подходит для дообучения (Fine-Tuning) локальных LLM (Llama-3, Qwen, Mistral) под задачи банковских чат-ботов и RAG-систем.
**Автор:** Ефим Д.
https://t.me/efimdg
https://t.me/fortuna_ai_dev
提供机构:
efimdg



