five

AMALIA

收藏
arXiv2026-03-27 更新2026-03-31 收录
下载链接:
https://github.com/AMALIA-LLM/AMALIA
下载链接
链接失效反馈
官方服务:
资源简介:
AMALIA数据集是一个专注于欧洲葡萄牙语(pt-PT)的大型语言模型数据集,由新里斯本大学·科学技术学院、NOVA LINCS等机构联合创建。数据集包含5.8亿个tokens,主要来源于葡萄牙网络档案Arquivo.pt,经过严格的URL过滤、语言识别、去重和质量分类处理。数据集创建过程包括数据收集、过滤、去重和质量分类,最终形成高、中、低三个质量等级的数据。该数据集旨在解决欧洲葡萄牙语在大型语言模型中的不足问题,应用于自然语言处理领域,特别是语言模型训练和评估。

The AMALIA dataset is a large language model dataset dedicated to European Portuguese (pt-PT), jointly created by institutions such as the NOVA School of Science and Technology of NOVA University Lisbon and NOVA LINCS. It contains 580 million tokens, primarily sourced from the Portuguese web archive Arquivo.pt, and has undergone rigorous processing including URL filtering, language identification, deduplication and quality classification. The dataset creation workflow encompasses data collection, filtering, deduplication and quality classification, ultimately yielding data categorized into three quality tiers: high, medium and low. This dataset is designed to address the shortage of European Portuguese resources for large language models, and is applicable to the field of natural language processing, particularly for language model training and evaluation.
提供机构:
新里斯本大学·科学技术学院; NOVA LINCS; 电信研究所; 里斯本高等技术学院·里斯本大学; 科学技术基金会
创建时间:
2026-03-27
搜集汇总
数据集介绍
构建方式
在自然语言处理领域,欧洲葡萄牙语(pt-PT)长期面临数据资源匮乏的挑战。AMALIA数据集的构建过程体现了对语言变体特性的深度关注,其核心数据来源于葡萄牙网络档案馆Arquivo.pt,通过精心设计的数据处理流程,包括URL过滤、文本提取、语言识别和质量分级,最终筛选出58亿个高质量pt-PT标记。在后期训练阶段,研究团队融合了指令遵循、对话推理、数学问题解决和安全对齐四大类数据,并特别引入由语言专家手工标注的葡萄牙语言学指令集,确保模型能够精准捕捉欧洲葡萄牙语的语言特征和文化语境。
特点
该数据集最显著的特点在于其针对欧洲葡萄牙语的深度专业化设计。相较于传统多语言模型,AMALIA不仅提供了大规模、高质量的pt-PT语料,还配套开发了完整的评估基准套件,包括PT-PT补全测试、葡萄牙国家高中考试题库、ALBA语言学基准和P3B3语言变体偏置评测。这些基准任务覆盖了语言生成、知识理解、文化语义和语法辨析等多个维度,能够全面评估模型对欧洲葡萄牙语语言特性和文化背景的掌握程度,填补了该语言变体在自然语言处理评估体系中的空白。
使用方法
研究者和开发者可通过开源平台获取AMALIA的完整数据资源与模型权重。在使用过程中,建议首先利用配套的pt-PT基准套件进行模型能力评估,特别关注ALBA语言学测试和PT-E开放性问题评测,这些任务能够有效检验模型对欧洲葡萄牙语细微差别的理解深度。对于模型微调,可依据研究目标选择数据混合策略,若侧重语言生成能力,应优先采用指令遵循和对话推理数据;若需提升文化适应性,则需整合安全对齐和语言学专项数据。实验配置推荐使用vLLM推理框架,并在评估时确保所有提示组件均采用纯正pt-PT表述,以准确反映模型的实际语言能力。
背景与挑战
背景概述
随着大语言模型技术的飞速发展,自然语言处理领域取得了革命性突破,然而现有模型普遍存在对英语数据的过度依赖,导致诸多欧洲语言及其文化变体在训练数据与评估基准中代表性严重不足。在此背景下,由葡萄牙NOVA科学技术学院、NOVA LINCS、电信研究所、里斯本大学高等技术学院及葡萄牙科学技术基金会等机构的研究团队于2026年共同创建了AMALIA数据集。该数据集的核心研究目标是解决欧洲葡萄牙语在大型语言模型生态中的边缘化问题,通过构建高质量、文化敏感的欧洲葡萄牙语训练语料与评估基准,推动语言模型对该语言变体在语法、词汇及文化语境上的精准理解与生成。AMALIA的发布标志着针对低资源语言变体的模型开发从依赖机器翻译转向原生数据驱动的范式,为欧洲语言多样性在人工智能时代的存续与发展提供了关键基础设施。
当前挑战
AMALIA数据集致力于解决的核心领域挑战是提升大型语言模型对欧洲葡萄牙语这一特定语言变体的理解与生成能力,其本质是应对全球语言模型生态中普遍存在的语言不平衡与文化代表性缺失问题。在构建过程中,研究团队面临多重具体挑战:首要挑战在于从海量网络存档中精准分离欧洲葡萄牙语内容,需设计复杂的过滤管道以排除巴西葡萄牙语等相近变体的干扰,并确保数据的语法纯正性与文化相关性。其次,高质量训练数据的稀缺构成显著瓶颈,团队必须综合运用合成生成、人工精校与机器翻译等多种策略来扩充语料,同时需开发新颖的质量评估方法以保障数据可靠性。此外,构建能够准确反映欧洲葡萄牙语语言学特性与文化细微差别的评估基准同样极具难度,这要求创建涵盖语法、语义、语用及文化知识的全新测试集,以超越传统机器翻译基准的局限性。
常用场景
经典使用场景
在自然语言处理领域,针对低资源语言变体的模型开发常面临数据稀缺与评估失准的双重挑战。AMALIA数据集的核心应用场景在于为欧洲葡萄牙语(pt-PT)的大语言模型训练与评估提供高质量、文化敏感的语料支撑。该数据集通过整合来自Arquivo.pt葡萄牙网络档案馆的原始文本,并经过严格的语言识别与质量过滤,构建了包含58亿标记的预训练语料库。其经典使用方式体现在为AMALIA等专为pt-PT设计的大语言模型提供从预训练、监督微调到偏好对齐的全流程数据基础,特别是在指令遵循、对话推理和数学问题解决等任务上,确保了模型能够精准捕捉欧洲葡萄牙语特有的语法结构、词汇选择及文化语境。
实际应用
在实际应用层面,AMALIA数据集支撑的模型能力可直接服务于葡萄牙语区的教育、文化与公共服务领域。基于该数据集训练的模型能够理解并生成符合欧洲葡萄牙语规范的教育内容,例如自动解答国家高中考试中的开放式问题,或辅助编写符合当地课程标准的教学材料。在语言技术产品开发中,此类模型可集成于智能客服、内容创作工具或翻译系统,确保输出文本在拼写、用词和表达习惯上贴合pt-PT使用者的预期。此外,其在安全对齐方面的数据构建也有助于开发符合当地法规与伦理要求的对话系统,为葡萄牙语数字生态提供既具备高级语言能力又安全可靠的人工智能服务。
衍生相关工作
AMALIA数据集的构建理念与方法衍生并连接了多项围绕欧洲葡萄牙语及多语言模型的前沿工作。其数据收集与处理流程借鉴并改进了FineWeb等先进数据管道,同时与EuroLLM项目在长上下文语料处理上形成协同。在模型层面,它延续并超越了此前针对pt-PT的模型尝试,如GlórIA的预训练工作与Gervásio基于指令微调的探索。其发布的评估基准,如ALBA语言学基准和P3B3偏见检测数据集,为后续研究设立了新的评价标准。这些工作共同构成了一个以高质量、文化敏感数据为核心,涵盖数据收集、模型训练与科学评估的完整技术生态,推动了针对特定语言变体的开源大模型研究走向深入。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作