smoltalk-chinese

Hugging Face2025-01-02 更新2025-01-03 收录

下载链接：

https://huggingface.co/datasets/opencsg/smoltalk-chinese

下载链接

链接失效反馈

官方服务：

资源简介：

smoltalk-chinese 是一个参考 SmolTalk 数据集构建的中文微调数据集，旨在为大型语言模型（LLM）的训练提供高质量的合成数据支持。该数据集全部由合成数据组成，涵盖超过70万条数据，专门设计用于提升中文大型语言模型在多种任务上的表现，增强模型的多功能性和适应性。数据集由多个部分组成，包括参考magpie-ultra的任务类型、参考smoltalk的其它任务类型、模拟日常生活中的对话风格以及来自Math23K中文版的数学题数据。数据集的生成过程严格遵循高标准，确保数据的质量和多样性。实验验证表明，基于smoltalk-chinese微调的模型在多个指标上表现出显著优势。

smoltalk-chinese is a Chinese fine-tuning dataset developed by referencing the SmolTalk dataset, which aims to provide high-quality synthetic data support for the training of large language models (LLMs). This dataset is entirely composed of synthetic data, containing over 700,000 entries, and is specially designed to enhance the performance of Chinese large language models across diverse tasks, as well as improve their versatility and adaptability. The dataset consists of multiple components, including task types adapted from magpie-ultra, other task types derived from SmolTalk, conversational styles simulating daily life, and mathematical problem data from the Chinese version of Math23K. The dataset generation process strictly adheres to high-quality standards to ensure both the quality and diversity of the data. Experimental validations have shown that models fine-tuned using smoltalk-chinese exhibit significant advantages across multiple evaluation metrics.

创建时间：

2024-12-25

原始信息汇总

Chinese SmolTalk 数据集概述

数据集基本信息

语言: 中文 (zh)
任务类别: 文本生成 (text-generation)
许可证: Apache-2.0
数据规模: 10B < n < 100B

数据集描述

smoltalk-chinese 是一个参考 SmolTalk 数据集构建的中文微调数据集，旨在为大型语言模型（LLM）的训练提供高质量的合成数据支持。该数据集全部由合成数据组成，涵盖超过70万条数据，专门设计用于提升中文大型语言模型在多种任务上的表现，增强模型的多功能性和适应性。

数据集组成

Magpie-Ultra 参考任务
- 使用 Magpie 合成的三轮对话数据，任务包括：
  - 信息检索 (Information-seeking)
  - 推理 (Reasoning)
  - 规划 (Planning)
  - 编辑 (Editing)
  - 编程 (Coding)
  - 数学 (Math)
  - 角色扮演 (Role-playing)
  - 数据分析 (Data-analysis)
  - 创意写作 (Creative-writing)
  - 寻求建议 (Advice-seeking)
  - 头脑风暴 (Brainstorming)
SmolTalk 参考任务
- 使用 Magpie 合成的一轮对话任务，任务包括：
  - 格式约束 (Format-constrain)
  - 重写 (Rewrite)
  - 总结 (Summary)
  - 安全 (Safe)
  - 翻译 (Translate)
  - 文档问答 (Doc)
模拟日常对话
- 生成五轮对话数据，模拟日常生活中的对话风格。
数学问题
- 来自 Math23K 中文版的数学题数据，答案包含详细推理步骤，由 deepseek-v2.5 生成。

数据集生成方法

数据生成: 使用 Magpie 合成原始数据，生成模型包括 deepseek-v2.5 和 qwen2.5-72b-instruct，结合 Distilabel 库确保生成内容的丰富性和多样性。
数据筛选: 利用 qwen2-7b-instruct 模型对对话数据的第一条指令进行清晰度和流畅度评分，仅保留评分在2分及以上的数据。
去重处理: 使用 gte-large-zh 模型对对话数据的第一条指令进行编码，根据嵌入相似度进行去重处理，确保数据的独特性和多样性。

实验验证

基础模型: 使用 opencsg/csg-wukong-ablation-chinese-fineweb-edu（在 chinese-fineweb-edu 上预训练的2B模型）作为基础模型。
微调过程: 在 smoltalk-chinese、Magpie-Qwen2-Pro-200K-Chinese 和 infinity-instruct 数据集上进行微调，训练设置为：
- Epochs: 2
- Learning Rate: 3e-4
- Scheduler: Cosine decay
- Global Batch Size: 32
评估结果: 在 Alignbench 上评估模型的中文对话能力，结果表明，基于 smoltalk-chinese 微调的模型在多个指标上表现出显著优势。

许可协议

使用 Chinese SmolTalk 数据集需要遵循 OpenCSG 社区许可证。该数据集支持商业用途，但需发送邮件至 lorraineg@opencsg.com 并获得许可。

搜集汇总

数据集介绍

构建方式

smoltalk-chinese数据集的构建过程严格遵循高标准，确保数据的质量和多样性。数据生成阶段，使用Magpie合成原始数据，采用的生成模型包括deepseek-v2.5和qwen2.5-72b-instruct，结合Distilabel库进行数据生成，确保生成内容的丰富性和多样性。数据筛选阶段，利用qwen2-7b-instruct模型对对话数据的第一条指令进行清晰度和流畅度评分，仅保留评分在2分及以上的数据，以保证数据质量。去重处理阶段，使用gte-large-zh模型对对话数据的第一条指令进行编码，根据嵌入相似度进行去重处理，确保数据的独特性和多样性。

特点

smoltalk-chinese数据集是一个参考SmolTalk数据集构建的中文微调数据集，旨在为大型语言模型（LLM）的训练提供高质量的合成数据支持。该数据集全部由合成数据组成，涵盖超过70万条数据，专门设计用于提升中文大型语言模型在多种任务上的表现，增强模型的多功能性和适应性。数据集由多个部分组成，覆盖广泛的任务类型，包括信息检索、逻辑推理、计划制定、文本编辑、编程辅助、数学问题解答、角色扮演、数据分析、创意写作、建议寻求和头脑风暴等，以确保模型在不同应用场景中的优异表现。

使用方法

smoltalk-chinese数据集的使用方法主要包括微调大型语言模型以提升其在中文任务中的表现。用户可以选择基础模型，如opencsg/csg-wukong-ablation-chinese-fineweb-edu，并在smoltalk-chinese数据集上进行微调。微调过程中，建议设置epochs为2，学习率为3e-4，使用余弦衰减调度器，全局批量大小为32。微调后的模型可以在Alignbench等评估平台上进行中文对话能力的测试，以验证其性能提升。此外，数据集支持商业用途，但需遵循OpenCSG社区许可证和Apache 2.0许可证的条款和条件，商业使用前需通过邮件获得许可。

背景与挑战

背景概述

smoltalk-chinese数据集是由OpenCSG社区构建的中文微调数据集，旨在为大型语言模型（LLM）的训练提供高质量的合成数据支持。该数据集参考了SmolTalk数据集的设计理念，全部由合成数据组成，涵盖超过70万条数据，专门设计用于提升中文大型语言模型在多种任务上的表现，增强模型的多功能性和适应性。数据集的核心研究问题在于如何通过高质量的合成数据，提升中文语言模型在信息检索、逻辑推理、数学计算、文本编辑等多任务场景中的表现。通过实验验证，该数据集在提升模型的中文对话能力方面表现出显著优势，对中文自然语言处理领域的发展具有重要推动作用。

当前挑战

smoltalk-chinese数据集在构建和应用过程中面临多重挑战。首先，数据生成过程中需要确保合成数据的多样性和质量，避免生成重复或低质量的内容。为此，研究人员采用了多种生成模型和筛选机制，如使用Magpie、deepseek-v2.5等模型生成数据，并通过qwen2-7b-instruct模型对数据的清晰度和流畅度进行评分，仅保留高质量数据。其次，数据去重是另一大挑战，研究人员使用gte-large-zh模型对数据进行编码，并通过嵌入相似度进行去重处理，确保数据的独特性。此外，数据集的构建需要覆盖广泛的任务类型，以提升模型的多功能性，这对数据生成和筛选提出了更高的要求。最后，如何在实际应用中验证数据集的有效性也是一个重要挑战，研究人员通过在Alignbench等基准测试上进行实验，验证了数据集在提升中文语言模型表现方面的显著效果。

常用场景

经典使用场景

smoltalk-chinese数据集在中文大型语言模型（LLM）的微调中展现了其经典应用场景。通过涵盖信息检索、逻辑推理、计划制定、文本编辑、编程辅助、数学问题解决、角色扮演、数据分析、创意写作、建议寻求和头脑风暴等多种任务类型，该数据集为模型提供了丰富的训练素材，使其在多样化任务中表现出色。特别是在模拟日常对话和数学问题解答方面，数据集通过多轮对话和详细推理步骤的设计，显著提升了模型在真实场景中的适应性和准确性。

衍生相关工作

smoltalk-chinese数据集的发布推动了中文语言模型领域的相关研究工作。基于该数据集，研究者们开发了多种微调模型，并在中文理解、逻辑推理和数学计算等任务中取得了显著进展。此外，该数据集还为其他中文语料库的构建提供了参考，促进了中文自然语言处理技术的发展。通过开源和社区合作，smoltalk-chinese数据集进一步推动了中文语言模型的研究和应用，为相关领域的创新提供了重要支持。

数据集最近研究