orai-nlp/ZelaiHandi
收藏Hugging Face2025-05-19 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/orai-nlp/ZelaiHandi
下载链接
链接失效反馈官方服务:
资源简介:
ZelaiHandi🌱是一个巴斯克语的大型文本集合,包含约5.21亿个词汇。该数据集的主要目的是为大型语言模型提供训练数据。数据集以JSONL格式发布,每个文档包含多个属性,如来源、许可证、语言、URL、标题、作者、日期、文本内容和领域等。数据集的来源包括新闻、行政、维基百科、科学、字幕、文学和视频游戏等多个领域。数据集定期更新,且所有文档均来自公开可用的自由许可证资源。
ZelaiHandi🌱: A Large Collection of Basque Texts. ZelaiHandi, which means large pasture in Basque, is the largest collection of freely licensed and clean Basque texts to date (March 4th, 2024), gathered from selected web sources. This collection comprises approximately 521 million tokens. The dataset will receive periodical updates. The corpus has been released with the objective of feeding Large Language Models. Naturally, models that are not strictly herbivorous can also ingest ZelaiHandi.
提供机构:
orai-nlp
原始信息汇总
数据集概述
数据集名称
ZelaiHandi🌱
数据集简介
ZelaiHandi🌱是一个大型巴斯克语文本集合,包含约5.21亿个词(4.5GB磁盘空间)。该数据集从精选的网络资源中收集,旨在为大型语言模型提供训练数据。
数据集详情
基本信息
- 大小: 521M词
- 语言: 巴斯克语(EU)
- 许可证: 多种CC许可证
- 维护者: Orai NLP Teknologiak
数据结构
数据集以JSONL格式发布,每个文档包含以下属性:
source: 来源license: 文档许可证lang: 语言标识url: 文档URLtitle: 文档标题author: 文档作者(如果已知)date: 发布日期(格式为yyyy[-mm-dd[Thh:mm:ssZ]])text: 文档内容,包含标题文本(对于新闻和文章)domain: 文档领域,包括[news, administrative, wikipedia, science, subtitles, literature, videogames]
源数据
数据集包含1.63M个文档,共计521,546,047个词。数据来源包括新闻、行政文件、维基百科、科学文献、字幕、文学作品和电子游戏等。
许可证
数据集中的所有文档均具有免费许可证,但每个来源的许可证可能不同。
偏见、风险和限制
数据集可能反映社会刻板印象和偏见,并可能包含显式语言、诽谤和仇恨言论,尤其是在文学作品中。
引用
如果使用该数据集,请引用以下参考文献:
bibtex
@misc{ZelaiHandi,
title = {ZelaiHandi: A Large Collection of Basque Texts},
author = {Iñaki San Vicente, Gorka Urbizu, Ander Corral, Zuhaitz Beloki, Xabier Saralegi},
publisher = {Orai NLP Technologies},
url = {url{https://huggingface.co/datasets/orai-nlp/ZelaiHandi}},
year = 2024 }
联系信息
- Iñaki San Vicente (i.sanvicente@orai.eus)
- Gorka Urbizu (g.urbizu@orai.eus)



