five

tabularisai/oak

收藏
Hugging Face2024-11-02 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/tabularisai/oak
下载链接
链接失效反馈
官方服务:
资源简介:
Open Artificial Knowledge (OAK)数据集是一个大规模资源,包含超过6.5亿个标记,旨在解决获取高质量、多样化和伦理来源的训练数据以用于大型语言模型(LLMs)的挑战。OAK利用一系列最先进的LLMs生成跨多个领域的高质量文本,并参考了维基百科的主要类别。数据集的特点包括653,552,076个高质量合成标记,使用了GPT4o、LLaMa3-70B、LLaMa3-8B、Mixtral-8x7B、Gemma-7B和Gemma-2-9B等模型生成,广泛的知识覆盖,旨在促进更强大和对齐的语言模型的开发。

The Open Artificial Knowledge (OAK) dataset is a large-scale synthetic dataset containing over 500 million tokens, designed to provide high-quality, diverse, and ethically sourced training data for Large Language Models (LLMs). The dataset leverages various advanced LLMs to generate high-quality text across multiple domains, guided by Wikipedias main categories. The creation process includes subject extraction, subtopic expansion, prompt generation, and text generation.
提供机构:
tabularisai
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作