HiTZ/latxa-corpus-v1.1
收藏Hugging Face2026-02-13 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/HiTZ/latxa-corpus-v1.1
下载链接
链接失效反馈官方服务:
资源简介:
Latxa Corpus v1.1是由HiTZ研究中心和IXA研究组(巴斯克大学UPV/EHU)共同策划的训练语料库,主要用于巴斯克语的大型语言模型训练。该数据集结合了多个现有数据集和新发布的数据集,并进行了去重和处理。数据来源包括Euscrawl v1.1、Egunkaria、Booktegi、Wikipedia、CulturaX、Colossal OSCAR和HPLT v1等。数据集的语言为巴斯克语(eu-ES)。
Latxa Corpus v1.1是由HiTZ研究中心和IXA研究组(巴斯克大学UPV/EHU)共同策划的训练语料库,主要用于巴斯克语的大型语言模型训练。该数据集结合了多个现有数据集和新发布的数据集,并进行了去重和处理。数据来源包括Euscrawl v1.1、Egunkaria、Booktegi、Wikipedia、CulturaX、Colossal OSCAR和HPLT v1等。数据集的语言为巴斯克语(eu-ES)。
提供机构:
HiTZ
原始信息汇总
Latxa Corpus v1.1 数据集概述
数据集摘要
- 由以下机构策划: HiTZ 研究中心 & IXA 研究小组(巴斯克大学 UPV/EHU)
- 语言: eu-ES
Latxa 的训练语料库结合了多种现有数据集以及一些新发布的数据集。原始文档混合已经去重和处理,这里提供的是语料库的最终版本。以下是数据源的简要介绍。更多详情,请参阅我们的论文。
- Euscrawl v1.1 <sup color="red">[new]</sup>:EusCrawl v1 的更新版本,包含截至 2023 年 11 月的新内容。
- Egunkaria <sup color="red">[new]</sup>:来自 Egunkaria 日报的内容。
- Booktegi <sup color="red">[new]</sup>:来自 https://www.booktegi.eus/ EPUB 书籍的内容。
- Wikipedia:2023 年 11 月的巴斯克语 Wikipedia 转储。
- CulturaX:CulturaX 语料库的巴斯克部分。
- Colossal OSCAR:多个 Colossal OSCAR 版本的巴斯克部分。
- HPLT v1:HPLT v1 语料库的巴斯克部分。
有关每个组成该训练数据集的语料库的许可证详细信息,请参阅每个语料库条目旁边的参考列表。
统计信息
每个数据集的文档数量如下:
| Train | Valid | Test | |
|---|---|---|---|
| CulturaX | 1,283,429 | 13,096 | 13,098 |
| EusCrawl v1.1 | 1,758,084 | 17,861 | 17,736 |
| HPLT v1 | 367,238 | 3,797 | 3,699 |
| Colossal OSCAR | 233,753 | 2,483 | 2,276 |
| Wikipedia | 400,902 | 4,063 | 4,092 |
| Egunkaria | 172,876 | 1,766 | 1,764 |
| Booktegi | 161 | 4 | 1 |
引用
如需引用我们的工作,请使用以下 BibTeX 格式:
bibtex @misc{etxaniz2024latxa, title={{L}atxa: An Open Language Model and Evaluation Suite for {B}asque}, author={Julen Etxaniz and Oscar Sainz and Naiara Perez and Itziar Aldabe and German Rigau and Eneko Agirre and Aitor Ormazabal and Mikel Artetxe and Aitor Soroa}, year={2024}, eprint={2403.20266}, archivePrefix={arXiv}, primaryClass={cs.CL} }



