EagleChat

Name: EagleChat
Creator: maas
Published: 2026-01-09 22:57:14
License: 暂无描述

魔搭社区2026-01-09 更新2025-11-03 收录

下载链接：

https://modelscope.cn/datasets/zhaode/EagleChat

下载链接

链接失效反馈

官方服务：

资源简介：

# EagleChat Dataset ## 📖 数据集简介 (Introduction) **EagleChat** 是一个高质量、经过精心整合的中英双语对话指令微调数据集。本数据集的核心目标是为大语言模型（特别是像 EAGLE 这样的模型）提供一个能够显著提升其综合对话能力的优质语料。我们通过融合三个广泛使用的高质量对话数据集：**ShareGPT**、**UltraChat 200k** 和 **smoltalk-chinese**，并进行统一的格式化处理和随机打乱，创建了这个独特的混合数据集。实践证明，使用 **EagleChat** 对 EAGLE 模型进行微调，效果提升显著。 **EagleChat** is a high-quality, meticulously curated bilingual (Chinese & English) conversational dataset for instruction fine-tuning. The primary goal of this dataset is to serve as a premium corpus to significantly enhance the comprehensive conversational abilities of Large Language Models, especially models like EAGLE. We created this unique hybrid dataset by merging three widely-used, high-quality conversational datasets: **ShareGPT**, **UltraChat 200k**, and **smoltalk-chinese**. The data has been uniformly formatted and randomly shuffled. It has been empirically proven that fine-tuning the EAGLE model with **EagleChat** leads to significant performance improvements. ### ✨ 核心特性 (Key Features) * **多源融合 (Multi-Source Fusion):** 结合了 ShareGPT、UltraChat 和 smoltalk-chinese 的优点，内容丰富多样。 * **中英双语 (Bilingual):** 包含大量高质量的中文和英文对话，有助于提升模型的跨语言能力。 * **效果验证 (Proven Effectiveness):** 已在 EAGLE 模型上成功验证，能有效提升模型的对话流畅性、指令遵循能力和综合表现。 * **即开即用 (Ready-to-Use):** 数据已进行清洗和格式化，可直接用于主流的微调框架。 ## 📊 数据集构成与规模 (Dataset Composition and Scale) 本数据集由以下三个部分按原始比例混合而成，总计包含 **1,039,104** 条对话样本。 | 数据来源 (Source Dataset) | 对话数量 (Number of Conversations) | | :------------------------ | :--------------------------------- | | ShareGPT | 120,675 | | UltraChat | 207,865 | | smoltalk-chinese | 710,564 | | **总计 (Total)** | **1,039,104** | 我们将上述三个数据集进行合并，对数据格式进行了统一化处理，并彻底打乱顺序，以确保训练过程中的数据分布更加均匀。 ## 引用 (Citation) * [ShareGPT](https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered) * [UltraChat](https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k) * [smoltalk-chinese](https://huggingface.co/datasets/opencsg/smoltalk-chinese)

# EagleChat 数据集 ## 📖 数据集简介 **EagleChat** 是一款高质量、经精心筛选整合的中英双语对话指令微调数据集。本数据集的核心目标是为大语言模型（Large Language Model），尤其是EAGLE这类模型，提供优质语料库，以显著提升其综合对话能力。我们融合了三个广泛应用的高质量对话数据集：**ShareGPT**、**UltraChat 200k** 与 **smoltalk-chinese**，并对全部数据完成统一格式化处理与随机打乱操作，最终构建出这款独特的混合数据集。经实证验证，采用本数据集对EAGLE模型进行指令微调，可带来显著的性能提升。 ## ✨ 核心特性 * **多源融合**：整合了ShareGPT、UltraChat与smoltalk-chinese的优势，内容丰富多元，覆盖场景广泛。 * **中英双语**：涵盖大量高质量中英文对话样本，可有效助力模型提升跨语言理解与生成能力。 * **效果经实证验证**：已在EAGLE模型上完成实际验证，能够显著提升模型的对话流畅度、指令遵循精度与综合表现。 * **即开即用**：数据已完成清洗与格式化处理，可直接部署于主流的大语言模型微调框架。 ## 📊 数据集构成与规模本数据集按原始比例混合以下三个数据源，总计包含**1,039,104**条对话样本： | 数据来源 | 对话样本数量 | | :--------------------- | :----------- | | ShareGPT | 120,675 | | UltraChat | 207,865 | | smoltalk-chinese | 710,564 | | **总计** | **1,039,104** | 我们将上述三个数据集合并后，统一了数据格式并进行全量随机打乱，以确保模型训练过程中的数据分布更为均匀均衡。 ## 引用 * [ShareGPT](https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered) * [UltraChat](https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k) * [smoltalk-chinese](https://huggingface.co/datasets/opencsg/smoltalk-chinese)

提供机构：

maas

创建时间：

2025-10-28

5,000+

优质数据集

54 个

任务类型

进入经典数据集