Common Corpus-zh 中文公共领域数据集

超神经2024-04-11 更新2024-05-15 收录

下载链接：

https://hyper.ai/cn/datasets/30604

下载链接

链接失效反馈

官方服务：

资源简介：

Common Corpus 是由 Pleias 、 HuggingFace 等机构联合创建的，是目前规模最大的公共领域数据集，专门用于训练大型语言模型（LLMs）。该数据集汇集了来自全球多样文化遗产项目的 5,000 亿词汇，包括英语、法语、中文、西班牙语、德语和意大利语等多种语言，是目前为止最全面的语言资源库。

Common Corpus was jointly created by institutions including Pleias, HuggingFace and others. It is currently the largest public-domain dataset specifically designed for training Large Language Models (LLMs). This dataset aggregates 500 billion words sourced from diverse global cultural heritage projects, covering multiple languages such as English, French, Chinese, Spanish, German and Italian, making it the most comprehensive language resource library to date.

创建时间：

2024-04-02

搜集汇总

数据集介绍

背景与挑战

背景概述

Common Corpus-zh是由Pleias和HuggingFace等机构联合创建的中文公共领域数据集，作为目前规模最大的公共领域资源，专门用于训练大型语言模型。它汇集了来自全球多样文化遗产项目的5,000亿词汇，涵盖多种语言，旨在构建AI数据共享平台，推动研究的可复制性和AI的民主化。

以上内容由遇见数据集搜集并总结生成