five

Atomic-Ai/GPT-Deepseek-German

收藏
Hugging Face2026-02-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/Atomic-Ai/GPT-Deepseek-German
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - text-generation - question-answering language: - de tags: - deepseek - gpt - qa - german - chat size_categories: - 10K<n<100K --- # GPT-Deepseek-German QA Dataset Ein hochwertiger Datensatz mit deutschsprachigen Frage-Antwort-Paaren von DeepSeek und ChatGPT-5 für das Training und Fine-Tuning von Sprachmodellen. ## Übersicht Dieser Datensatz enthält hochqualitative deutschsprachige Konversationsdaten, die aus den KI-Assistenten DeepSeek und ChatGPT-5 generiert wurden. Er eignet sich besonders zum Fine-Tuning von Sprachmodellen im deutschen Sprachraum und für die Entwicklung von Chat-Anwendungen. ## Datensatzstruktur Der Datensatz folgt einem einfachen, strukturierten Format: ``` <user> [Benutzer-Prompt] <End> <AI Assistant> [KI-Antwort] <End> ``` Jedes Frage-Antwort-Paar befindet sich auf einer neuen Zeile. Dieses Format ermöglicht einfache Verarbeitung und ist kompatibel mit standardmäßigen Trainings-Pipelines. ## Verwendungsbeispiel ```python from datasets import load_dataset # Datensatz laden dataset = load_dataset("Atomic-Ai/GPT-Deepseek-German") # Inspizieren print(dataset) print(dataset['train'][0]) ``` ## Datenquellen - **DeepSeek**: KI-generierte deutschsprachige Responses - **ChatGPT-5**: Hochqualitative deutschsprachige Responses ## Verwendungszwecke - Fine-Tuning von Sprachmodellen für deutsche Chat-Anwendungen - Training von Custom-Modellen für spezifische Domains - Erstellung von Conversational AI-Systemen - Evaluation von deutschsprachigen LLMs ## Größe - **Größenkategorie**: 10.000 - 100.000 Einträge - **Sprache**: Deutsch - **Format**: Text (UTF-8) ## Lizenz MIT License - Frei verwendbar für kommerzielle und private Projekte ## Zitierung ```bibtex @dataset{atomic_ai_gpt_deepseek_german, title={GPT-Deepseek-German QA Dataset}, author={Atomic-AI}, year={2024}, publisher={Hugging Face} } ``` ## Hinweise zur Verwendung - Das Datensatzformat ist optimiert für einfaches Parsing und Tokenization - Empfohlen für Modelle ab 7B Parametern - Geeignet für ChatML- oder Custom-Format-Konvertierungen - Kann für Instruction-Tuning und Conversation-Fine-Tuning verwendet werden ## Lizenzinformationen Dieser Datensatz steht unter der MIT-Lizenz und kann frei für kommerzielle und private Zwecke verwendet werden.
提供机构:
Atomic-Ai
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作