Intellecta
收藏arXiv2024-04-13 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2404.13065v1
下载链接
链接失效反馈官方服务:
资源简介:
Intellecta数据集是由Bud Ecosystem Inc创建的一个综合性合成数据集,旨在提升当代语言模型的认知处理能力。该数据集包含11.53亿个tokens,其中69.5%为合成数据,30.5%为来自学术出版物的教科书数据。数据集通过Mixtral-8x7B-Instruct-v0.1模型生成,涵盖编程、数学、自然语言处理等多个领域,旨在增强语言模型的复杂思维和教育叙事生成能力。创建过程中,采用动态提示生成系统,确保数据多样性,避免模型过度拟合。Intellecta数据集的应用领域广泛,旨在解决语言模型在复杂认知任务中的局限性,推动AI领域的进步和创新。
提供机构:
Bud Ecosystem Inc
创建时间:
2024-04-13



