five

EagleChat

收藏
魔搭社区2026-01-09 更新2025-11-03 收录
下载链接:
https://modelscope.cn/datasets/zhaode/EagleChat
下载链接
链接失效反馈
官方服务:
资源简介:
# EagleChat Dataset ## 📖 数据集简介 (Introduction) **EagleChat** 是一个高质量、经过精心整合的中英双语对话指令微调数据集。本数据集的核心目标是为大语言模型(特别是像 EAGLE 这样的模型)提供一个能够显著提升其综合对话能力的优质语料。 我们通过融合三个广泛使用的高质量对话数据集:**ShareGPT**、**UltraChat 200k** 和 **smoltalk-chinese**,并进行统一的格式化处理和随机打乱,创建了这个独特的混合数据集。实践证明,使用 **EagleChat** 对 EAGLE 模型进行微调,效果提升显著。 **EagleChat** is a high-quality, meticulously curated bilingual (Chinese & English) conversational dataset for instruction fine-tuning. The primary goal of this dataset is to serve as a premium corpus to significantly enhance the comprehensive conversational abilities of Large Language Models, especially models like EAGLE. We created this unique hybrid dataset by merging three widely-used, high-quality conversational datasets: **ShareGPT**, **UltraChat 200k**, and **smoltalk-chinese**. The data has been uniformly formatted and randomly shuffled. It has been empirically proven that fine-tuning the EAGLE model with **EagleChat** leads to significant performance improvements. ### ✨ 核心特性 (Key Features) * **多源融合 (Multi-Source Fusion):** 结合了 ShareGPT、UltraChat 和 smoltalk-chinese 的优点,内容丰富多样。 * **中英双语 (Bilingual):** 包含大量高质量的中文和英文对话,有助于提升模型的跨语言能力。 * **效果验证 (Proven Effectiveness):** 已在 EAGLE 模型上成功验证,能有效提升模型的对话流畅性、指令遵循能力和综合表现。 * **即开即用 (Ready-to-Use):** 数据已进行清洗和格式化,可直接用于主流的微调框架。 ## 📊 数据集构成与规模 (Dataset Composition and Scale) 本数据集由以下三个部分按原始比例混合而成,总计包含 **1,039,104** 条对话样本。 | 数据来源 (Source Dataset) | 对话数量 (Number of Conversations) | | :------------------------ | :--------------------------------- | | ShareGPT | 120,675 | | UltraChat | 207,865 | | smoltalk-chinese | 710,564 | | **总计 (Total)** | **1,039,104** | 我们将上述三个数据集进行合并,对数据格式进行了统一化处理,并彻底打乱顺序,以确保训练过程中的数据分布更加均匀。 ## 引用 (Citation) * [ShareGPT](https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered) * [UltraChat](https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k) * [smoltalk-chinese](https://huggingface.co/datasets/opencsg/smoltalk-chinese)

# EagleChat 数据集 ## 📖 数据集简介 **EagleChat** 是一款高质量、经精心筛选整合的中英双语对话指令微调数据集。本数据集的核心目标是为大语言模型(Large Language Model),尤其是EAGLE这类模型,提供优质语料库,以显著提升其综合对话能力。 我们融合了三个广泛应用的高质量对话数据集:**ShareGPT**、**UltraChat 200k** 与 **smoltalk-chinese**,并对全部数据完成统一格式化处理与随机打乱操作,最终构建出这款独特的混合数据集。经实证验证,采用本数据集对EAGLE模型进行指令微调,可带来显著的性能提升。 ## ✨ 核心特性 * **多源融合**:整合了ShareGPT、UltraChat与smoltalk-chinese的优势,内容丰富多元,覆盖场景广泛。 * **中英双语**:涵盖大量高质量中英文对话样本,可有效助力模型提升跨语言理解与生成能力。 * **效果经实证验证**:已在EAGLE模型上完成实际验证,能够显著提升模型的对话流畅度、指令遵循精度与综合表现。 * **即开即用**:数据已完成清洗与格式化处理,可直接部署于主流的大语言模型微调框架。 ## 📊 数据集构成与规模 本数据集按原始比例混合以下三个数据源,总计包含**1,039,104**条对话样本: | 数据来源 | 对话样本数量 | | :--------------------- | :----------- | | ShareGPT | 120,675 | | UltraChat | 207,865 | | smoltalk-chinese | 710,564 | | **总计** | **1,039,104** | 我们将上述三个数据集合并后,统一了数据格式并进行全量随机打乱,以确保模型训练过程中的数据分布更为均匀均衡。 ## 引用 * [ShareGPT](https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered) * [UltraChat](https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k) * [smoltalk-chinese](https://huggingface.co/datasets/opencsg/smoltalk-chinese)
提供机构:
maas
创建时间:
2025-10-28
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作