five

HiTZ/latxa-corpus-v1.1

收藏
Hugging Face2026-02-13 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/HiTZ/latxa-corpus-v1.1
下载链接
链接失效反馈
官方服务:
资源简介:
Latxa Corpus v1.1是由HiTZ研究中心和IXA研究组(巴斯克大学UPV/EHU)共同策划的训练语料库,主要用于巴斯克语的大型语言模型训练。该数据集结合了多个现有数据集和新发布的数据集,并进行了去重和处理。数据来源包括Euscrawl v1.1、Egunkaria、Booktegi、Wikipedia、CulturaX、Colossal OSCAR和HPLT v1等。数据集的语言为巴斯克语(eu-ES)。

Latxa Corpus v1.1是由HiTZ研究中心和IXA研究组(巴斯克大学UPV/EHU)共同策划的训练语料库,主要用于巴斯克语的大型语言模型训练。该数据集结合了多个现有数据集和新发布的数据集,并进行了去重和处理。数据来源包括Euscrawl v1.1、Egunkaria、Booktegi、Wikipedia、CulturaX、Colossal OSCAR和HPLT v1等。数据集的语言为巴斯克语(eu-ES)。
提供机构:
HiTZ
原始信息汇总

Latxa Corpus v1.1 数据集概述

数据集摘要

  • 由以下机构策划: HiTZ 研究中心 & IXA 研究小组(巴斯克大学 UPV/EHU)
  • 语言: eu-ES

Latxa 的训练语料库结合了多种现有数据集以及一些新发布的数据集。原始文档混合已经去重和处理,这里提供的是语料库的最终版本。以下是数据源的简要介绍。更多详情,请参阅我们的论文。

  • Euscrawl v1.1 <sup color="red">[new]</sup>EusCrawl v1 的更新版本,包含截至 2023 年 11 月的新内容。
  • Egunkaria <sup color="red">[new]</sup>:来自 Egunkaria 日报的内容。
  • Booktegi <sup color="red">[new]</sup>:来自 https://www.booktegi.eus/ EPUB 书籍的内容。
  • Wikipedia:2023 年 11 月的巴斯克语 Wikipedia 转储。
  • CulturaXCulturaX 语料库的巴斯克部分。
  • Colossal OSCAR:多个 Colossal OSCAR 版本的巴斯克部分。
  • HPLT v1HPLT v1 语料库的巴斯克部分。

有关每个组成该训练数据集的语料库的许可证详细信息,请参阅每个语料库条目旁边的参考列表。

统计信息

每个数据集的文档数量如下:

Train Valid Test
CulturaX 1,283,429 13,096 13,098
EusCrawl v1.1 1,758,084 17,861 17,736
HPLT v1 367,238 3,797 3,699
Colossal OSCAR 233,753 2,483 2,276
Wikipedia 400,902 4,063 4,092
Egunkaria 172,876 1,766 1,764
Booktegi 161 4 1

引用

如需引用我们的工作,请使用以下 BibTeX 格式:

bibtex @misc{etxaniz2024latxa, title={{L}atxa: An Open Language Model and Evaluation Suite for {B}asque}, author={Julen Etxaniz and Oscar Sainz and Naiara Perez and Itziar Aldabe and German Rigau and Eneko Agirre and Aitor Ormazabal and Mikel Artetxe and Aitor Soroa}, year={2024}, eprint={2403.20266}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作