five

smoltalk-chinese

收藏
Opencsg2025-01-15 更新2026-04-11 收录
下载链接:
https://www.opencsg.com/datasets/AIWizards/smoltalk-chinese
下载链接
链接失效反馈
官方服务:
资源简介:
Chinese SmolTalk数据集旨在为大型语言模型训练提供高质量的中文合成数据支持。该数据集包含超过70万条中文合成对话数据,涵盖信息检索、推理、规划、编辑、编程、数学、角色扮演、数据分析、创意写作、建议寻求、头脑风暴、格式约束、文本重写、文本总结、安全内容识别、翻译、文档问答等多种任务类型,并包含模拟日常对话和带有详细推理步骤的数学问题。数据以多轮和单轮对话形式组织。其生成过程利用Magpie工具,结合deepseek-v2.5和qwen2.5-72b-instruct模型合成原始数据,并通过qwen2-7b-instruct模型进行清晰度与流畅度评分筛选,再通过gte-large-zh模型进行嵌入相似度去重,以确保数据质量和多样性。该数据集主要适用于提升中文大型语言模型在文本生成、对话、理解和推理等方面的能力。Chinese SmolTalk数据集遵循OpenCSG社区许可证和Apache 2.0许可证,支持商业用途,但商业使用需获得许可。
创建时间:
2025-05-25
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作