smoltalk-chinese
收藏OpenCSG2025-05-25 更新2026-04-04 收录
下载链接:
https://opencsg.com/datasets/AIWizards/smoltalk-chinese?tab=summary
下载链接
链接失效反馈官方服务:
资源简介:
Chinese SmolTalk数据集旨在为大型语言模型训练提供高质量的中文合成数据支持。该数据集包含超过70万条中文合成对话数据,涵盖信息检索、推理、规划、编辑、编程、数学、角色扮演、数据分析、创意写作、建议寻求、头脑风暴、格式约束、文本重写、文本总结、安全内容识别、翻译、文档问答等多种任务类型,并包含模拟日常对话和带有详细推理步骤的数学问题。数据以多轮和单轮对话形式组织。其生成过程利用Magpie工具,结合deepseek-v2.5和qwen2.5-72b-instruct模型合成原始数据,并通过qwen2-7b-instruct模型进行清晰度与流畅度评分筛选,再通过gte-large-zh模型进行嵌入相似度去重,以确保数据质量和多样性。该数据集主要适用于提升中文大型语言模型在文本生成、对话、理解和推理等方面的能力。Chinese SmolTalk数据集遵循OpenCSG社区许可证和Apache 2.0许可证,支持商业用途,但商业使用需获得许可。
提供机构:
AIWizards
创建时间:
2025-01-15



