budecosystem/intellecta
收藏Hugging Face2024-04-24 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/budecosystem/intellecta
下载链接
链接失效反馈官方服务:
资源简介:
Intellecta Cognitiva是一个包含超过100个主题的综合数据集,涵盖了从线性代数到情感分析等多个学科。该数据集通过模拟人类学习过程,旨在提高语言模型的泛化能力,防止过拟合,并遵循伦理数据整理和开源原则。数据来源包括教科书数据和合成数据,后者通过Mixtral-8x7B-Instruct-v0.1模型生成,涵盖编程、数学、NLP等多个领域。数据集整理过程包括OCR内容提取、数据去重、毒性过滤和DBSCAN聚类等步骤。评估结果显示,使用该数据集训练的模型在多个基准测试中表现优异。
Intellecta Cognitiva是一个包含超过100个主题的综合数据集,涵盖了从线性代数到情感分析等多个学科。该数据集通过模拟人类学习过程,旨在提高语言模型的泛化能力,防止过拟合,并遵循伦理数据整理和开源原则。数据来源包括教科书数据和合成数据,后者通过Mixtral-8x7B-Instruct-v0.1模型生成,涵盖编程、数学、NLP等多个领域。数据集整理过程包括OCR内容提取、数据去重、毒性过滤和DBSCAN聚类等步骤。评估结果显示,使用该数据集训练的模型在多个基准测试中表现优异。
提供机构:
budecosystem
原始信息汇总
Intellecta Cognitiva数据集概述
数据集概览
Intellecta Cognitiva是一个包含11.53亿个令牌的数据集,旨在模拟人类学术学习过程,从基础原理到复杂主题,涵盖教科书内容。该数据集通过结构化提示引导AI进行类人教育体验,以培养语言模型深入理解和生成复杂知识的能力。
设计目标
- 提升语言模型的泛化能力
- 通过数据多样性防止模型过拟合
- 模拟人类学习过程
- 遵循伦理数据收集和开源原则
数据来源
- 教科书数据(30.5%):来源于学术出版物。
- 合成数据(69.5%):包括编程、数学、自然语言处理、推理及多个专业领域。
合成数据生成
使用Mixtral-8x7B-Instruct-v0.1模型生成合成数据,以模拟复杂思维过程和详细解释,类似教科书内容。
数据集整理
整理过程包括:
- OCR内容提取
- 定制数据处理管道
- 使用Simhash进行去重
- 使用Perspective API进行毒性过滤
- 使用DBSCAN进行数据多样性聚类
数据集描述
Intellecta Cognitiva包含超过100个主题,每个主题都经过精心挑选,具有教育价值,涵盖从线性代数到情感分析等多个学科。
评估结果
数据集训练的“boomer-634m”模型在多个基准测试中表现稳健,与其他模型相比,展示了数据集在训练高质量语言模型方面的有效性。



