seq-monkey 序列猴子开源数据集 1.0
收藏超神经2024-03-18 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/30139
下载链接
链接失效反馈官方服务:
资源简介:
序列猴子是出门问问提供的超大规模语言模型,序列猴子数据集是用于训练序列猴子模型的数据集合,现抽取部分数据集向公众开放。
"Sequence Monkey" is an ultra-large-scale language model developed by Mobvoi. The Sequence Monkey Dataset is the dataset used for training this model, and a subset of the dataset has now been made publicly available.
创建时间:
2024-03-14
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是出门问问提供的序列猴子语言模型训练数据集合,包含中文通用文本、古诗今译和文本生成三个领域的语料,总计开放超过1,300万份中文文本、68万首古诗翻译和5千条问答数据,适用于自然语言处理任务如文本生成和错误纠正。数据集规模较大(10.73 GB),专注于中文语言处理,旨在支持模型训练和微调。
以上内容由遇见数据集搜集并总结生成



