Atomic-Ai/GPT-Deepseek-German

Name: Atomic-Ai/GPT-Deepseek-German
Creator: Atomic-Ai
Published: 2026-02-28 17:03:18
License: 暂无描述

Hugging Face2026-02-28 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/Atomic-Ai/GPT-Deepseek-German

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit task_categories: - text-generation - question-answering language: - de tags: - deepseek - gpt - qa - german - chat size_categories: - 10K<n<100K --- # GPT-Deepseek-German QA Dataset Ein hochwertiger Datensatz mit deutschsprachigen Frage-Antwort-Paaren von DeepSeek und ChatGPT-5 für das Training und Fine-Tuning von Sprachmodellen. ## Übersicht Dieser Datensatz enthält hochqualitative deutschsprachige Konversationsdaten, die aus den KI-Assistenten DeepSeek und ChatGPT-5 generiert wurden. Er eignet sich besonders zum Fine-Tuning von Sprachmodellen im deutschen Sprachraum und für die Entwicklung von Chat-Anwendungen. ## Datensatzstruktur Der Datensatz folgt einem einfachen, strukturierten Format: ``` <user> [Benutzer-Prompt] <End> <AI Assistant> [KI-Antwort] <End> ``` Jedes Frage-Antwort-Paar befindet sich auf einer neuen Zeile. Dieses Format ermöglicht einfache Verarbeitung und ist kompatibel mit standardmäßigen Trainings-Pipelines. ## Verwendungsbeispiel ```python from datasets import load_dataset # Datensatz laden dataset = load_dataset("Atomic-Ai/GPT-Deepseek-German") # Inspizieren print(dataset) print(dataset['train'][0]) ``` ## Datenquellen - **DeepSeek**: KI-generierte deutschsprachige Responses - **ChatGPT-5**: Hochqualitative deutschsprachige Responses ## Verwendungszwecke - Fine-Tuning von Sprachmodellen für deutsche Chat-Anwendungen - Training von Custom-Modellen für spezifische Domains - Erstellung von Conversational AI-Systemen - Evaluation von deutschsprachigen LLMs ## Größe - **Größenkategorie**: 10.000 - 100.000 Einträge - **Sprache**: Deutsch - **Format**: Text (UTF-8) ## Lizenz MIT License - Frei verwendbar für kommerzielle und private Projekte ## Zitierung ```bibtex @dataset{atomic_ai_gpt_deepseek_german, title={GPT-Deepseek-German QA Dataset}, author={Atomic-AI}, year={2024}, publisher={Hugging Face} } ``` ## Hinweise zur Verwendung - Das Datensatzformat ist optimiert für einfaches Parsing und Tokenization - Empfohlen für Modelle ab 7B Parametern - Geeignet für ChatML- oder Custom-Format-Konvertierungen - Kann für Instruction-Tuning und Conversation-Fine-Tuning verwendet werden ## Lizenzinformationen Dieser Datensatz steht unter der MIT-Lizenz und kann frei für kommerzielle und private Zwecke verwendet werden.

提供机构：

Atomic-Ai

5,000+

优质数据集

54 个

任务类型

进入经典数据集