five

budecosystem/intellecta

收藏
Hugging Face2024-04-24 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/budecosystem/intellecta
下载链接
链接失效反馈
官方服务:
资源简介:
Intellecta Cognitiva是一个包含超过100个主题的综合数据集,涵盖了从线性代数到情感分析等多个学科。该数据集通过模拟人类学习过程,旨在提高语言模型的泛化能力,防止过拟合,并遵循伦理数据整理和开源原则。数据来源包括教科书数据和合成数据,后者通过Mixtral-8x7B-Instruct-v0.1模型生成,涵盖编程、数学、NLP等多个领域。数据集整理过程包括OCR内容提取、数据去重、毒性过滤和DBSCAN聚类等步骤。评估结果显示,使用该数据集训练的模型在多个基准测试中表现优异。

Intellecta Cognitiva是一个包含超过100个主题的综合数据集,涵盖了从线性代数到情感分析等多个学科。该数据集通过模拟人类学习过程,旨在提高语言模型的泛化能力,防止过拟合,并遵循伦理数据整理和开源原则。数据来源包括教科书数据和合成数据,后者通过Mixtral-8x7B-Instruct-v0.1模型生成,涵盖编程、数学、NLP等多个领域。数据集整理过程包括OCR内容提取、数据去重、毒性过滤和DBSCAN聚类等步骤。评估结果显示,使用该数据集训练的模型在多个基准测试中表现优异。
提供机构:
budecosystem
原始信息汇总

Intellecta Cognitiva数据集概述

数据集概览

Intellecta Cognitiva是一个包含11.53亿个令牌的数据集,旨在模拟人类学术学习过程,从基础原理到复杂主题,涵盖教科书内容。该数据集通过结构化提示引导AI进行类人教育体验,以培养语言模型深入理解和生成复杂知识的能力。

设计目标

  • 提升语言模型的泛化能力
  • 通过数据多样性防止模型过拟合
  • 模拟人类学习过程
  • 遵循伦理数据收集和开源原则

数据来源

  • 教科书数据(30.5%):来源于学术出版物。
  • 合成数据(69.5%):包括编程、数学、自然语言处理、推理及多个专业领域。

合成数据生成

使用Mixtral-8x7B-Instruct-v0.1模型生成合成数据,以模拟复杂思维过程和详细解释,类似教科书内容。

数据集整理

整理过程包括:

  • OCR内容提取
  • 定制数据处理管道
  • 使用Simhash进行去重
  • 使用Perspective API进行毒性过滤
  • 使用DBSCAN进行数据多样性聚类

数据集描述

Intellecta Cognitiva包含超过100个主题,每个主题都经过精心挑选,具有教育价值,涵盖从线性代数到情感分析等多个学科。

评估结果

数据集训练的“boomer-634m”模型在多个基准测试中表现稳健,与其他模型相比,展示了数据集在训练高质量语言模型方面的有效性。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作