five

efimdg/ru-banking-100k-synthetic

收藏
Hugging Face2025-12-09 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/efimdg/ru-banking-100k-synthetic
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - text-generation - question-answering language: - ru tags: - finance - banking - synthetic size_categories: - 10k<n<100k --- # Russian Banking Support Dataset (100k Synthetic) This dataset contains **100,000 high-quality question-answer pairs** simulating customer support scenarios in Russian banks. It covers complex topics like **115-FZ (AML), Escrow accounts, Loans, Sanctions, and SBP transfers**. ## Origin & Quality This dataset was generated using a custom high-performance pipeline designed for **zero hallucinations** and deep context retention. - **Method:** Knowledge Distillation with Entropy Deduplication. - **Goal:** To provide legally accurate and context-aware responses for FinTech applications in the Russian market. ## Dataset Structure File format: `.jsonl` Fields: - `instruction`: User query (varied tones: formal, emotional, short). - `output`: Assistant response (legally accurate, empathetic, context-aware). ## Key Features 1. **Legal Accuracy:** Correctly handles Russian specific regulations (115-FZ, Central Bank rules). 2. **Complex Intents:** Handles double intents (e.g., "How to block card AND return money?"). 3. **Native Context:** Optimized for Russian banking specifics (SBP, Mir cards, regional laws). 4. **Cleaned:** Rigorously filtered for artifacts. ## Usage Perfect for fine-tuning local LLMs (Llama-3, Qwen, Mistral) for FinTech support bots or RAG systems. ## Author Generated by **Efim D.**. https://t.me/efimdg https://t.me/fortuna_ai_dev --- # Описание на русском Этот датасет содержит **100 000 пар "вопрос-ответ"** высокого качества, моделирующих работу техподдержки российских банков. Охватывает сложные темы: **115-ФЗ, эскроу-счета, кредиты, санкционные ограничения, переводы СБП**. ## Происхождение и качество Датасет сгенерирован с использованием кастомного пайплайна, оптимизированного для **отсутствия галлюцинаций** и удержания сложного контекста. - **Метод:** Дистилляция знаний с энтропийной дедупликацией. - **Цель:** Предоставить юридически точные и контекстуально верные ответы для FinTech-приложений на российском рынке. ## Структура Формат: `.jsonl` Поля: - `instruction`: Запрос пользователя (разные тональности: официально, эмоционально, кратко). - `output`: Ответ ассистента (юридически точный, эмпатичный, учитывающий контекст). ## Ключевые особенности 1. **Юридическая точность:** Корректная трактовка 115-ФЗ, правил ЦБ РФ. 2. **Сложные интенты:** Обработка двойных запросов (например, "Как заблокировать карту И вернуть деньги?"). 3. **Локальный контекст:** Учет специфики РФ (СБП, карты МИР, региональное законодательство). 4. **Чистота:** Данные отфильтрованы от артефактов и мусора. ## Применение Идеально подходит для дообучения (Fine-Tuning) локальных LLM (Llama-3, Qwen, Mistral) под задачи банковских чат-ботов и RAG-систем. **Автор:** Ефим Д. https://t.me/efimdg https://t.me/fortuna_ai_dev
提供机构:
efimdg
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作