latxa-corpus-v2
收藏Hugging Face2025-12-17 更新2025-12-18 收录
下载链接:
https://huggingface.co/datasets/HiTZ/latxa-corpus-v2
下载链接
链接失效反馈官方服务:
资源简介:
Latxa Corpus v2是一个大规模单语巴斯克语语料库,由HiTZ研究中心和IXA研究小组(巴斯克大学UPV/EHU)联合创建。该语料库结合了经过整理的爬取数据、公共数据集、机构数据和新收集的资源,与v1.1版本相比,显著增加了覆盖范围、多样性和数据量。最终语料库经过去重和过滤,适用于语言模型预训练。数据来源包括Euscrawl v2、Egunkaria日报、Booktegi电子书、ZelaiHandi语料库子集、巴斯克政府官方公报(BOPV)、吉普斯夸省议会官方公报(BOG)、阿拉瓦省议会官方公报(BOTHA)、巴斯克议会会议记录(ParlEus)、巴斯克学术期刊(Aldizkariak)、巴斯克维基百科、CulturaX语料库的巴斯克部分、Colossal OSCAR语料库的巴斯克部分、FineWeb2语料库的巴斯克部分、FinePDFs语料库的巴斯克部分、HPLT v1和v2语料库的巴斯克部分,以及OPUS的巴斯克字幕(OpenSubs)。
提供机构:
HiTZ zentroa
创建时间:
2025-12-15
原始信息汇总
Latxa Corpus v2 数据集概述
数据集基本信息
- 数据集名称: Latxa Corpus v2
- 维护机构: HiTZ 研究中心 & IXA 研究小组(巴斯克大学 UPV/EHU)
- 主要联系邮箱: hitz@ehu.eus
- 语言: 巴斯克语 (eu-ES)
- 多语言性: 单语
- 任务类别: 掩码填充、文本生成
- 任务ID: 语言建模、掩码语言建模
- 标注创建者: 无标注
数据集摘要
Latxa Corpus v2 是一个大规模单语巴斯克语语料库,通过整合精选的网络爬取数据、公共数据集、机构数据和新收集的资源构建而成。与 v1.1 版本相比,它显著提升了覆盖范围、多样性和数据量。最终语料库经过去重和过滤,可直接用于语言模型预训练。
数据来源与构成
该语料库由以下17个独立的数据源(配置)组合而成,每个数据源均包含训练集、验证集和测试集:
- wikipedia: 2025年9月的巴斯克语维基百科转储。
- euscrawl-v2: Euscrawl v1 的更新版本,包含截至2025年11月的新内容。
- egunkaria: 来自 Egunkaria 日报的内容。
- zelaihandi: ZelaiHandi 语料库的一个子集。
- bog: 吉普斯夸省议会的官方公报。
- bopv: 巴斯克地区政府的官方公报。
- botha: 阿拉瓦省议会的官方公报。
- parleus: 巴斯克议会会议的转录文本,从PDF提取和重构。
- aldizkariak: 从PDF源处理的巴斯克语学术期刊,包括 Ekaia, Gogoa, Tantak, Ekonomiaz, Kondaira, Uztaro, Osagaiz, IkerGazte。
- opensubtitles: 来自 OPUS 的巴斯克语字幕。
- booktegi: 来自 booktegi.eus 的 EPUB 书籍内容。
- cultura-x: CulturaX 语料库的巴斯克语部分。
- hplt-v2: HPLT v2 语料库的巴斯克语部分。
- finepdfs: FinePDFs 语料库的巴斯克语部分。
- fineweb2: FineWeb2 语料库的巴斯克语部分。
- colossal-oscar: 多个 Colossal OSCAR 版本的巴斯克语部分。
- hplt-v1: HPLT v1 语料库的巴斯克语部分。
数据统计(文档数量)
| 数据源 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|
| Aldizkariak | 3,260 | 33 | 33 |
| BOG | 169,665 | 1,731 | 1,731 |
| Booktegi | 175 | 1 | 1 |
| BOPV | 42,798 | 437 | 887 |
| BOTHA | 92,249 | 941 | 941 |
| Colossal OSCAR | 89,856 | 915 | 915 |
| CulturaX | 870,464 | 8,882 | 8,882 |
| Egunkaria | 174,776 | 1,783 | 1,783 |
| Euscrawl v2 | 3,958,893 | 20,283 | 20,283 |
| FinePDFs | 277,572 | 2,803 | 837 |
| FineWeb2 | 341,296 | 3,482 | 3,482 |
| HPLT v1 | 894,590 | 9,128 | 9,128 |
| HPLT v2 | 567,503 | 5,790 | 5,790 |
| OpenSubs | 870 | 8 | 8 |
| ParlEus | 22,818 | 231 | 560 |
| Wikipedia | 456,273 | 4,655 | 4,655 |
| ZelaiHandi | 189,975 | 1,938 | 1,938 |
许可与版权声明
数据集创建者不声称对语料库中的任何文档拥有所有权。如果您认为我们的数据包含了您拥有的且不希望在此被复制的内容,请通过 hitz@ehu.eus 联系我们。关于构成此训练数据集的每个独立语料库和文档的相关许可详细信息,请参考“meta”中的“license”字段或每个语料库条目旁列出的相应参考文献。
资助信息
本工作由巴斯克地区政府(IKER-GAITU 项目)以及西班牙数字化转型与公共职能部资助,资金来自欧盟 – NextGenerationEU,项目框架为 ILENIA(参考号 2022/TL22/00215335)以及 Desarrollo de Modelos ALIA 项目框架。
搜集汇总
数据集介绍

构建方式
在巴斯克语自然语言处理领域,构建高质量的大规模语料库对于语言模型的训练至关重要。Latxa Corpus v2的构建过程体现了系统性的数据整合策略,它并非单一来源的集合,而是通过精心筛选和融合多个异构数据源而形成。该语料库汇集了来自网络爬取、公共数据集、机构文档和新收集资源的文本,具体涵盖了Euscrawl v2的更新网络内容、Egunkaria报纸、Booktegi电子书、多个官方政府公报、议会会议转录文本、学术期刊以及多个国际知名多语言语料库的巴斯克语部分。所有数据经过严格的去重、过滤和标准化处理,最终组织为训练集、验证集和测试集的标准划分,确保了语料库的纯净度与可用性,为模型预训练提供了坚实的基础。
特点
作为巴斯克语研究的重要资源,Latxa Corpus v2展现出显著的规模与多样性特征。其核心优势在于覆盖范围的广泛性,语料来源横跨新闻媒体、政府公文、学术文献、网络文本、书籍及影视字幕等多个领域,共计超过17个独立的数据子集。这种多源异构的特性极大地丰富了语料的文体、主题和语言风格,有效避免了数据偏差。从规模上看,仅Euscrawl v2子集的训练文档就接近四百万,整个语料库的文档总量庞大,为训练高性能语言模型提供了充足的语料支持。语料库采用标准的训练、验证、测试划分,且每个子集均保持独立配置,便于研究者进行细粒度的分析与实验。
使用方法
对于致力于巴斯克语人工智能研究的学者与开发者而言,Latxa Corpus v2提供了便捷高效的使用途径。该数据集已托管于HuggingFace平台,用户可以直接通过其`datasets`库进行加载,并利用`config_name`参数指定所需的特定数据源子集,例如`wikipedia`或`euscrawl-v2`。每个子集均以压缩的JSON Lines格式提供,并已预先分割为训练、验证和测试部分,用户可按需加载以进行语言模型预训练、掩码语言建模或文本生成等任务。在使用过程中,用户需注意遵守各原始数据源所附带的许可协议,相关许可信息可在数据集的`meta`字段或对应参考文献中查询。
背景与挑战
背景概述
在自然语言处理领域,低资源语言的语料库构建是推动语言技术发展的关键基石。Latxa Corpus v2 由巴斯克地区大学 HiTZ 研究中心与 IXA 研究组于近期联合创建,旨在应对巴斯克语这一独特语言在人工智能时代面临的资源稀缺问题。该数据集整合了维基百科、政府公报、学术期刊、新闻报纸及多源网络爬取文本,形成了大规模、高质量的单语语料库,其核心研究问题聚焦于为巴斯克语的语言模型预训练提供充足且多样化的数据支持,从而显著提升该语言在机器翻译、文本生成等下游任务中的性能表现,对巴斯克语数字生态的构建与语言技术本土化具有深远影响。
当前挑战
该数据集致力于解决巴斯克语作为低资源语言在自然语言处理中面临的数据稀缺与质量不均的核心挑战。具体而言,其构建过程需克服多源异构数据的整合难题,包括从官方PDF文档、网络爬虫、学术出版物等不同格式与渠道中提取、清洗并统一文本。同时,确保语料的代表性、时效性与语言纯净度,避免噪声与重复内容,亦是关键的技术障碍。这些挑战直接关联到巴斯克语语言模型训练的效能,数据质量的高低将直接影响模型对语言复杂性与文化特异性的捕捉能力。
常用场景
经典使用场景
在巴斯克语自然语言处理领域,Latxa Corpus v2作为大规模单语语料库,其经典使用场景集中于语言模型的预训练与微调。该语料库整合了维基百科、新闻报刊、政府公报、学术期刊及网络爬取文本等多源数据,为构建高质量的巴斯克语基础模型提供了丰富且纯净的语料基础。研究人员利用其训练掩码语言模型或自回归语言模型,以捕捉巴斯克语的语法结构、词汇语义及语用特征,从而支撑下游任务的性能提升。
解决学术问题
该数据集有效解决了低资源语言在自然语言处理研究中面临的语料稀缺与质量不均的学术难题。通过系统性地汇集、去重和过滤多领域文本,它提供了规模庞大、覆盖广泛的标准化语料,使得针对巴斯克语的词法分析、句法解析、语义表示等基础研究成为可能。其意义在于打破了数据瓶颈,为巴斯克语的数字生存与计算语言学发展奠定了坚实的实证基础,推动了语言技术公平性与包容性的学术进程。
衍生相关工作
围绕Latxa Corpus v2,已衍生出一系列经典的后续研究工作。HiTZ与IXA研究团队基于此前版本持续优化语料收集与清洗流程,并推动了巴斯克语专用大语言模型的开发。相关成果为EusCrawl等爬虫工具的迭代提供了数据验证,同时也促进了如CulturaX、FineWeb等多语言语料库项目中巴斯克语模块的构建与评估。这些工作共同丰富了低资源语言处理的学术图谱与技术栈。
以上内容由遇见数据集搜集并总结生成



