latam-gpt/red_pajama_es_hq
收藏Hugging Face2024-12-04 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/latam-gpt/red_pajama_es_hq
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从RedPajama-Data-v2的西班牙语部分提取的高质量数据集,使用了FineWEB-Edu的方法论。数据集包含文本、元数据、分数和整数分数等特征,并提供了训练集的划分。数据集的创建过程包括使用Llama-3.1-70B对原始数据集中的样本进行教育质量评分,并训练了一个编码器分类器来分配分数。数据集可以根据质量分数进行过滤,质量分数范围为2.5到5,分数越高表示质量越好。该数据集是Latam-GPT项目的一部分,该项目旨在开发一个完全在拉丁美洲构建的大型语言模型。数据集的文本文档来源于84个CommonCrawl快照,并使用了CCNet管道进行处理,许可证为Apache 2.0。
This is a high-quality dataset distilled from the Spanish subsection of RedPajama-Data-v2, created using the methodology proposed in FineWEB-Edu. The dataset includes features such as text, meta, score, and int_score, with detailed information provided for the training set. The creation process involved using the Llama-3.1-70B model to grade educational quality and training an encoder-based classifier to assign scores from 0 to 5. The dataset can be filtered by quality score and is suitable for scenarios requiring high-quality Spanish text.
提供机构:
latam-gpt



