EagleChat
收藏魔搭社区2026-01-09 更新2025-11-03 收录
下载链接:
https://modelscope.cn/datasets/zhaode/EagleChat
下载链接
链接失效反馈官方服务:
资源简介:
# EagleChat Dataset
## 📖 数据集简介 (Introduction)
**EagleChat** 是一个高质量、经过精心整合的中英双语对话指令微调数据集。本数据集的核心目标是为大语言模型(特别是像 EAGLE 这样的模型)提供一个能够显著提升其综合对话能力的优质语料。
我们通过融合三个广泛使用的高质量对话数据集:**ShareGPT**、**UltraChat 200k** 和 **smoltalk-chinese**,并进行统一的格式化处理和随机打乱,创建了这个独特的混合数据集。实践证明,使用 **EagleChat** 对 EAGLE 模型进行微调,效果提升显著。
**EagleChat** is a high-quality, meticulously curated bilingual (Chinese & English) conversational dataset for instruction fine-tuning. The primary goal of this dataset is to serve as a premium corpus to significantly enhance the comprehensive conversational abilities of Large Language Models, especially models like EAGLE.
We created this unique hybrid dataset by merging three widely-used, high-quality conversational datasets: **ShareGPT**, **UltraChat 200k**, and **smoltalk-chinese**. The data has been uniformly formatted and randomly shuffled. It has been empirically proven that fine-tuning the EAGLE model with **EagleChat** leads to significant performance improvements.
### ✨ 核心特性 (Key Features)
* **多源融合 (Multi-Source Fusion):** 结合了 ShareGPT、UltraChat 和 smoltalk-chinese 的优点,内容丰富多样。
* **中英双语 (Bilingual):** 包含大量高质量的中文和英文对话,有助于提升模型的跨语言能力。
* **效果验证 (Proven Effectiveness):** 已在 EAGLE 模型上成功验证,能有效提升模型的对话流畅性、指令遵循能力和综合表现。
* **即开即用 (Ready-to-Use):** 数据已进行清洗和格式化,可直接用于主流的微调框架。
## 📊 数据集构成与规模 (Dataset Composition and Scale)
本数据集由以下三个部分按原始比例混合而成,总计包含 **1,039,104** 条对话样本。
| 数据来源 (Source Dataset) | 对话数量 (Number of Conversations) |
| :------------------------ | :--------------------------------- |
| ShareGPT | 120,675 |
| UltraChat | 207,865 |
| smoltalk-chinese | 710,564 |
| **总计 (Total)** | **1,039,104** |
我们将上述三个数据集进行合并,对数据格式进行了统一化处理,并彻底打乱顺序,以确保训练过程中的数据分布更加均匀。
## 引用 (Citation)
* [ShareGPT](https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered)
* [UltraChat](https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k)
* [smoltalk-chinese](https://huggingface.co/datasets/opencsg/smoltalk-chinese)
# EagleChat 数据集
## 📖 数据集简介
**EagleChat** 是一款高质量、经精心筛选整合的中英双语对话指令微调数据集。本数据集的核心目标是为大语言模型(Large Language Model),尤其是EAGLE这类模型,提供优质语料库,以显著提升其综合对话能力。
我们融合了三个广泛应用的高质量对话数据集:**ShareGPT**、**UltraChat 200k** 与 **smoltalk-chinese**,并对全部数据完成统一格式化处理与随机打乱操作,最终构建出这款独特的混合数据集。经实证验证,采用本数据集对EAGLE模型进行指令微调,可带来显著的性能提升。
## ✨ 核心特性
* **多源融合**:整合了ShareGPT、UltraChat与smoltalk-chinese的优势,内容丰富多元,覆盖场景广泛。
* **中英双语**:涵盖大量高质量中英文对话样本,可有效助力模型提升跨语言理解与生成能力。
* **效果经实证验证**:已在EAGLE模型上完成实际验证,能够显著提升模型的对话流畅度、指令遵循精度与综合表现。
* **即开即用**:数据已完成清洗与格式化处理,可直接部署于主流的大语言模型微调框架。
## 📊 数据集构成与规模
本数据集按原始比例混合以下三个数据源,总计包含**1,039,104**条对话样本:
| 数据来源 | 对话样本数量 |
| :--------------------- | :----------- |
| ShareGPT | 120,675 |
| UltraChat | 207,865 |
| smoltalk-chinese | 710,564 |
| **总计** | **1,039,104** |
我们将上述三个数据集合并后,统一了数据格式并进行全量随机打乱,以确保模型训练过程中的数据分布更为均匀均衡。
## 引用
* [ShareGPT](https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered)
* [UltraChat](https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k)
* [smoltalk-chinese](https://huggingface.co/datasets/opencsg/smoltalk-chinese)
提供机构:
maas
创建时间:
2025-10-28



