budecosystem/intellecta

Name: budecosystem/intellecta
Creator: budecosystem
Published: 2024-04-24 11:15:28
License: 暂无描述

Hugging Face2024-04-24 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/budecosystem/intellecta

下载链接

链接失效反馈

官方服务：

资源简介：

Intellecta Cognitiva是一个包含超过100个主题的综合数据集，涵盖了从线性代数到情感分析等多个学科。该数据集通过模拟人类学习过程，旨在提高语言模型的泛化能力，防止过拟合，并遵循伦理数据整理和开源原则。数据来源包括教科书数据和合成数据，后者通过Mixtral-8x7B-Instruct-v0.1模型生成，涵盖编程、数学、NLP等多个领域。数据集整理过程包括OCR内容提取、数据去重、毒性过滤和DBSCAN聚类等步骤。评估结果显示，使用该数据集训练的模型在多个基准测试中表现优异。

提供机构：

budecosystem

原始信息汇总

Intellecta Cognitiva数据集概述

数据集概览

Intellecta Cognitiva是一个包含11.53亿个令牌的数据集，旨在模拟人类学术学习过程，从基础原理到复杂主题，涵盖教科书内容。该数据集通过结构化提示引导AI进行类人教育体验，以培养语言模型深入理解和生成复杂知识的能力。

设计目标

提升语言模型的泛化能力
通过数据多样性防止模型过拟合
模拟人类学习过程
遵循伦理数据收集和开源原则

数据来源

教科书数据（30.5%）：来源于学术出版物。
合成数据（69.5%）：包括编程、数学、自然语言处理、推理及多个专业领域。

合成数据生成

使用Mixtral-8x7B-Instruct-v0.1模型生成合成数据，以模拟复杂思维过程和详细解释，类似教科书内容。

数据集整理

整理过程包括：

OCR内容提取
定制数据处理管道
使用Simhash进行去重
使用Perspective API进行毒性过滤
使用DBSCAN进行数据多样性聚类

数据集描述

Intellecta Cognitiva包含超过100个主题，每个主题都经过精心挑选，具有教育价值，涵盖从线性代数到情感分析等多个学科。

评估结果

数据集训练的“boomer-634m”模型在多个基准测试中表现稳健，与其他模型相比，展示了数据集在训练高质量语言模型方面的有效性。

5,000+

优质数据集

54 个

任务类型

进入经典数据集