five

EuroWeb; EuroBlocks

收藏
arXiv2026-02-06 更新2026-02-08 收录
下载链接:
https://huggingface.co/EuroLLM
下载链接
链接失效反馈
官方服务:
资源简介:
EuroWeb和EuroBlocks是由欧洲多国研究机构联合构建的大规模多语言数据集,旨在解决欧洲语言在现有开源大模型中的代表性不足问题。EuroWeb包含从高质量网络资源(如FineWeb-edu、RedPajama等)过滤的4T多语言文本,涵盖教育、代码、数学等领域;EuroBlocks则是由公开指令数据集增强生成的1060万条多语言指令数据,支持32K长上下文建模。数据集通过多阶段质量筛选和合成数据增强,显著提升了模型的多语言推理与指令遵循能力,适用于机器翻译、跨语言信息检索等场景。
提供机构:
里斯本高等技术学院; 里斯本大学·里斯本ELLIS单元; 电信研究所; MICS·巴黎中央理工·巴黎萨克雷大学; 卡内基梅隆大学; 爱丁堡大学; 索邦大学·CNRS·ISIR; 阿尔特法克特研究中心; 特兰斯佩克特
创建时间:
2026-02-06
搜集汇总
数据集介绍
main_image_url
构建方式
EuroWeb与EuroBlocks数据集的构建依托于EuroLLM项目,旨在解决欧洲语言在现有大型语言模型中代表性不足的问题。EuroWeb作为预训练数据集,其构建过程采用了多语言网络数据的精细筛选策略,针对高资源语言(如德语、西班牙语、法语、意大利语)从RedPajama-Data-v2等来源收集数据,并应用基于KenLM的困惑度过滤及启发式规则(如文档长度、特殊字符比例等)进行清洗。对于其他语言,则整合了HPLT、MADLAD-400、CulturaX和mC4等多个公开语料库,通过去重、语言识别和质量分类(使用EuroFilter教育评分器)将数据划分为三个质量层级,以适配多阶段训练流程。此外,数据集还纳入了平行语料(如Europarl、ParaCrawl)、代码与数学数据(The Stack、Open-web-math)以及高质量文档(Wikipedia、ArXiv),并通过合成数据增强数学推理能力,最终形成覆盖35种语言的综合性预训练资源。
特点
EuroWeb与EuroBlocks数据集的核心特点体现在其广泛的多语言覆盖与高质量数据设计上。EuroWeb全面支持24种欧盟官方语言及11种附加语言(包括阿拉伯语、中文、日语等),通过严格的质量分层机制(基于EuroFilter评分)确保训练数据的教育价值与语言纯净度。其结构设计适配了渐进式训练策略,将最高质量数据保留于后期阶段,以优化模型的多语言表示能力。EuroBlocks作为指令微调数据集,则通过整合多样化的公开指令源(如Hermes-3、Tülu 3、Nemotron V2)并利用先进模型(如Qwen2.5、Gemma2)重新生成响应,再以奖励模型(Skywork-Gemma2-27B)筛选最优答案,构建了约1060万条多语言指令样本。该数据集强调非推理式指令-响应对,去除结构化思维链痕迹,并涵盖通用对话、编程、数学及STEM领域,实现了英语(60%)、多语言内容(20%)与代码/数学数据(20%)的平衡分布,显著提升了模型在指令遵循与跨语言推理方面的性能。
使用方法
EuroWeb与EuroBlocks数据集的使用方法紧密围绕EuroLLM系列模型的训练与评估流程展开。在预训练阶段,EuroWeb按质量层级分阶段输入模型,初期使用广泛网络数据,后期逐步引入高质量平行语料、代码数据及合成数学样本,以32K上下文长度支持长序列建模。对于指令微调,EuroBlocks用于监督式微调(SFT),通过Axolotl框架结合Liger-Kernel优化训练效率,在32K上下文窗口下以交叉熵损失函数优化模型输出。数据集的评估依托于多语言基准测试体系,包括指令遵循(IFEval)、通用知识(MMLU、Hellaswag)、STEM任务(GSM8K、MATH-500)及翻译(FLORES-200、WMT24++),并采用LLM-as-a-Judge机制(使用Nemotron-49B、GPT-OSS-120B等作为评判模型)替代规则提取,以提高评估的可靠性与人类对齐度。研究人员可通过HuggingFace平台获取数据集及配套代码,重现训练过程或开展下游任务适配,推动欧洲语言AI技术的进一步发展。
背景与挑战
背景概述
EuroWeb与EuroBlocks数据集是EuroLLM项目的重要组成部分,该项目由欧洲多所研究机构与企业的联合团队于2024年至2026年间主导推进。该项目的核心研究目标是解决欧洲语言在现有开源大语言模型中代表性不足和服务欠缺的问题,通过构建覆盖欧盟24种官方语言及11种附加语言的大规模多语言数据集,为训练EuroLLM系列模型提供高质量预训练与指令微调数据。EuroWeb作为多语言网络预训练数据集,EuroBlocks作为多语言指令数据集,共同支撑了EuroLLM-22B等模型的开发,显著提升了模型在多语言推理、指令遵循和翻译任务上的性能,对推动欧洲语言人工智能技术的民主化发展具有深远影响。
当前挑战
EuroWeb与EuroBlocks数据集在构建过程中面临双重挑战。在领域问题层面,其核心挑战在于如何有效解决欧洲语言资源分散且质量不均的问题,特别是在低资源语言中获取足够的高质量文本,以支持模型在多语言场景下的均衡表现。在构建过程层面,挑战主要体现在数据收集与清洗的复杂性上:需从RedPajama-Data-v2、HPLT、MADLAD-400等多个异构来源整合多语言网络数据,并应用基于EuroFilter的教育质量评分、去重、语言识别及启发式过滤等多层质量控制策略;同时,指令数据集的构建需融合多样化的公开来源,并通过多模型生成与奖励模型筛选机制确保响应质量,这一过程涉及大规模数据处理与质量评估的技术难题。
常用场景
经典使用场景
在自然语言处理领域,EuroWeb和EuroBlocks数据集为多语言大语言模型的预训练与指令微调提供了关键支持。EuroWeb作为大规模多语言网络语料库,覆盖了欧盟24种官方语言及11种额外语言,其精心设计的质量分级机制使得模型能够在不同训练阶段接触从广泛到精炼的数据分布。EuroBlocks则作为高质量的指令数据集,通过整合多样化的公开资源与合成生成的高质量回答,为模型在多语言指令遵循、推理和翻译等任务上的性能优化奠定了数据基础。这两个数据集的协同使用,典型地体现在EuroLLM系列模型的开发流程中,实现了从基础语言理解到复杂任务执行的渐进式能力提升。
衍生相关工作
EuroWeb和EuroBlocks数据集的发布催生了一系列重要的衍生研究工作。以EuroLLM项目为核心,研究团队基于这些数据集开发了从1.7B到22B参数规模的模型系列,并在多语言基准测试中展现了竞争优势。这些工作进一步推动了如Apertus、Salamandra等欧洲本土大语言模型的发展,形成了开放多语言模型的研究生态。数据集的设计理念也被其他项目借鉴,例如在数据过滤、质量评估和指令合成等方面的方法创新,已广泛应用于后续多语言数据集的构建中,为全球范围内的语言技术研究提供了可复现的范例。
数据集最近研究
最新研究方向
在自然语言处理领域,EuroWeb和EuroBlocks数据集作为EuroLLM项目的重要组成部分,正推动多语言大模型的前沿研究。随着欧洲语言在现有开放大模型中代表性不足的问题日益凸显,该数据集通过覆盖欧盟24种官方语言及11种附加语言,致力于构建公平、包容的多语言人工智能生态。前沿研究方向聚焦于提升模型的多语言推理能力、指令遵循性能以及翻译质量,同时通过数据过滤、多阶段训练策略和上下文窗口扩展等技术优化模型架构。关联热点事件包括欧盟对人工智能主权和语言多样性的政策支持,以及开源社区对透明、可复现模型的需求增长。这些进展不仅增强了欧洲语言在全球化人工智能浪潮中的竞争力,也为跨语言信息处理、教育科技和数字公共服务等领域提供了关键基础设施,具有深远的学术与社会影响。
相关研究论文
  • 1
    EuroLLM-22B: Technical Report里斯本高等技术学院; 里斯本大学·里斯本ELLIS单元; 电信研究所; MICS·巴黎中央理工·巴黎萨克雷大学; 卡内基梅隆大学; 爱丁堡大学; 索邦大学·CNRS·ISIR; 阿尔特法克特研究中心; 特兰斯佩克特 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作