the-pile-europarl-refined-by-data-juicer
收藏魔搭社区2025-12-06 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/Data-Juicer/the-pile-europarl-refined-by-data-juicer
下载链接
链接失效反馈官方服务:
资源简介:
A refined version of EuroParl dataset in The Pile by Data-Juicer. Removing some "bad" samples from the original dataset to make it higher-quality. This dataset is usually used to pretrain a Large Language Model.
由Data-Juicer推出的、收录于The Pile语料库中的欧洲议会语料库(EuroParl dataset)优化版本。该版本通过移除原始数据集中部分低质量样本,以提升整体数据质量。此数据集通常用于大语言模型(Large Language Model)的预训练任务。
提供机构:
maas
创建时间:
2023-08-01
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是The Pile中EuroParl数据集的精炼版本,由Data-Juicer通过移除低质量样本以提高质量,主要用于大型语言模型的预训练。原始数据中约88.23%的样本被保留,共计61,601个样本。
以上内容由遇见数据集搜集并总结生成



