Atomic-Ai/GPT-Deepseek-German
收藏Hugging Face2026-02-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/Atomic-Ai/GPT-Deepseek-German
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- text-generation
- question-answering
language:
- de
tags:
- deepseek
- gpt
- qa
- german
- chat
size_categories:
- 10K<n<100K
---
# GPT-Deepseek-German QA Dataset
Ein hochwertiger Datensatz mit deutschsprachigen Frage-Antwort-Paaren von DeepSeek und ChatGPT-5 für das Training und Fine-Tuning von Sprachmodellen.
## Übersicht
Dieser Datensatz enthält hochqualitative deutschsprachige Konversationsdaten, die aus den KI-Assistenten DeepSeek und ChatGPT-5 generiert wurden. Er eignet sich besonders zum Fine-Tuning von Sprachmodellen im deutschen Sprachraum und für die Entwicklung von Chat-Anwendungen.
## Datensatzstruktur
Der Datensatz folgt einem einfachen, strukturierten Format:
```
<user> [Benutzer-Prompt] <End> <AI Assistant> [KI-Antwort] <End>
```
Jedes Frage-Antwort-Paar befindet sich auf einer neuen Zeile. Dieses Format ermöglicht einfache Verarbeitung und ist kompatibel mit standardmäßigen Trainings-Pipelines.
## Verwendungsbeispiel
```python
from datasets import load_dataset
# Datensatz laden
dataset = load_dataset("Atomic-Ai/GPT-Deepseek-German")
# Inspizieren
print(dataset)
print(dataset['train'][0])
```
## Datenquellen
- **DeepSeek**: KI-generierte deutschsprachige Responses
- **ChatGPT-5**: Hochqualitative deutschsprachige Responses
## Verwendungszwecke
- Fine-Tuning von Sprachmodellen für deutsche Chat-Anwendungen
- Training von Custom-Modellen für spezifische Domains
- Erstellung von Conversational AI-Systemen
- Evaluation von deutschsprachigen LLMs
## Größe
- **Größenkategorie**: 10.000 - 100.000 Einträge
- **Sprache**: Deutsch
- **Format**: Text (UTF-8)
## Lizenz
MIT License - Frei verwendbar für kommerzielle und private Projekte
## Zitierung
```bibtex
@dataset{atomic_ai_gpt_deepseek_german,
title={GPT-Deepseek-German QA Dataset},
author={Atomic-AI},
year={2024},
publisher={Hugging Face}
}
```
## Hinweise zur Verwendung
- Das Datensatzformat ist optimiert für einfaches Parsing und Tokenization
- Empfohlen für Modelle ab 7B Parametern
- Geeignet für ChatML- oder Custom-Format-Konvertierungen
- Kann für Instruction-Tuning und Conversation-Fine-Tuning verwendet werden
## Lizenzinformationen
Dieser Datensatz steht unter der MIT-Lizenz und kann frei für kommerzielle und private Zwecke verwendet werden.
提供机构:
Atomic-Ai



