general-instruction-augmented-corpora
收藏OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/AIWizards/general-instruction-augmented-corpora?tab=summary
下载链接
链接失效反馈官方服务:
资源简介:
Instruction Pre-Training: Language Models are Supervised Multitask Learners 提供了一套通用指令增强语料库,包含2亿条指令-响应对,覆盖40多个任务类别。该语料库通过高效的指令合成器生成,用于大规模原始语料的指令增强预训练。它支持文本分类、表格问答、问题回答和零样本分类等任务,并提供标准化数据操作流程,方便用户将语料用于模型预训练。该语料库基于odc-by协议授权。
提供机构:
AIWizards
创建时间:
2024-07-19



