HiTZ/euscrawl

Name: HiTZ/euscrawl
Creator: HiTZ
Published: 2023-02-14 19:00:22
License: 暂无描述

Hugging Face2023-02-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/HiTZ/euscrawl

下载链接

链接失效反馈

官方服务：

资源简介：

EusCrawl是一个高质量的巴斯克语语料库，包含1250万份文档和4.23亿个标记，总计2.1 GiB的未压缩文本。该数据集通过专门的爬虫从33个巴斯克语网站中提取高质量内容，生成的文本相比通用方法更为干净。数据集主要用于语言建模和掩码语言建模的预训练任务。数据集的字段包括id、标题、文本、来源、许可证和URL。数据集仅包含一个训练分割，适用于预训练语言模型。

EusCrawl is a high-quality Basque language corpus containing 12.5 million documents and 423 million tokens, totaling 2.1 GiB of uncompressed text. This dataset extracts high-quality content from 33 Basque-language websites via a specialized crawler, and the generated text is cleaner than that produced by general-purpose methods. The dataset is primarily used for pretraining tasks such as language modeling and masked language modeling. Its fields include id, title, text, source, license, and URL. The dataset only contains a single training split, which is suitable for pretraining language models.

提供机构：

HiTZ

原始信息汇总

数据集概述

数据集名称: EusCrawl

语言: 巴斯克语 (eu)

许可证: Creative Commons (cc)

多语言性: 单语种

数据集大小: 10M<n<100M

数据来源: 原始数据

标签: 高质量, 网络爬虫

任务类别: 文本生成, 填充掩码

任务ID: 语言建模, 掩码语言建模

数据集结构

数据实例

json { "id": 6, "title": "Herriko enpresa handien eta txikien arteko topaketak egingo dituzte", "text": "09:30ean hasiko da bilera eta aurkezpena egingo dute Tubacex, JEZ, Envases, Guardian eta Vidrala enpresek. Eskualdeko lantegi motorrekin beste enpresa txikiak eta ertainak egongo dira. Erakunde publikoaren helburua da euren artean ezagutzea eta elkarlana sustatzea.", "source": "aiaraldea", "license": "cc-by-sa 3.0", "url": "https://aiaraldea.eus/laudio/1494603159768-herriko-enpresa-handien-eta-txikien-arteko-topaketak-egingo-dituzte", }

数据字段

"id": 示例ID
"title": 文章标题
"text": 文章内容
"source": 文章来源
"license": 文章许可证
"url": 文章URL

数据分割

训练集: 1724544个实例, 2314407002字节

数据集创建

许可证信息

数据集中的所有文档均在其原始网站上发布，并根据Creative Commons许可证授权。每个文档的特定许可证变体可在每个文档的"license"字段中找到。

引用信息

bibtex @misc{artetxe2022euscrawl, title={Does corpus quality really matter for low-resource languages?}, author={Mikel Artetxe, Itziar Aldabe, Rodrigo Agerri, Olatz Perez-de-Viñaspre, Aitor Soroa}, year={2022}, eprint={2203.08111}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在巴斯克语这一低资源语言的自然语言处理研究中，构建高质量语料库是推动模型性能提升的关键。EusCrawl数据集的构建采用了针对性的网络爬取策略，精心筛选了33个内容质量卓越的巴斯克语网站作为数据源。通过定制化的爬虫工具，研究团队从这些网站中提取了文本内容，并保留了文章的标题、正文、来源、许可协议及原始URL等结构化信息。这一过程旨在确保语料的纯净度与代表性，相较于通用爬取方法，显著降低了噪声干扰，为巴斯克语的预训练任务提供了坚实的数据基础。

使用方法

该数据集主要应用于语言模型的预训练任务，特别是掩码语言建模和自回归语言生成。研究人员可通过Hugging Face平台直接加载数据集，利用其提供的训练分割进行模型训练。在使用过程中，建议用户依据每条数据所附的许可协议字段，确保符合版权规范。鉴于数据集未包含验证或测试分割，使用者需自行划分部分数据以评估模型性能。此外，结合原始论文中的方法，该语料可用于探究语料质量对低资源语言模型效果的影响，为相关研究提供实证基础。

背景与挑战

背景概述

在自然语言处理领域，低资源语言的语料库构建一直是学界关注的焦点。巴斯克语作为一种孤立语言，其数字资源的稀缺性制约了相关语言模型的发展。EusCrawl数据集由巴斯克大学IXA研究小组于2022年创建，旨在通过高质量的网络爬取技术，构建规模达4.23亿词符的巴斯克语文本集合。该数据集聚焦于解决低资源语言在预训练阶段面临的数据匮乏问题，通过精选33个优质巴斯克语网站，采用定制化爬取策略确保文本清洁度，为巴斯克语的语言建模与掩码语言建模任务提供了重要基础资源，显著提升了该语言在预训练模型领域的可及性。

当前挑战

EusCrawl数据集所应对的核心挑战在于低资源语言环境下高质量语料库的构建难题。巴斯克语作为非主流语言，其数字化文本分布分散且规模有限，传统通用爬取方法极易引入噪声数据。在构建过程中，研究团队需克服网站结构异构性带来的解析困难，设计专用爬虫以实现精准内容提取；同时需严格遵循知识共享许可协议，确保每份文档的版权合规性。这些技术性与法律性双重挑战，使得低资源语言语料库的构建既需要精细的工程化处理，又离不开对数字伦理规范的深刻把握。

常用场景

经典使用场景

在低资源语言处理领域，巴斯克语作为孤立语言长期面临语料稀缺的挑战。EusCrawl通过精心设计的网络爬虫系统，从33个高质量巴斯克语网站中提取出4.23亿词汇量的文本数据，为语言模型预训练提供了纯净的语料基础。该数据集特别适用于掩码语言建模和自回归语言生成任务，其经过筛选的文档结构有效降低了噪声干扰，使研究者能够构建更精准的巴斯克语表征模型。

解决学术问题

该数据集直接回应了低资源语言建模中的核心难题——如何在不依赖大规模标注数据的情况下获得优质训练语料。通过证明专用爬虫策略相较于通用方法能显著提升语料质量，EusCrawl为语言资源稀缺情境下的模型优化提供了实证依据。其构建方法论突破了传统平行语料依赖，为孤立语言的数字生存开辟了新的技术路径，对保护语言多样性具有重要学术价值。

实际应用

在实际应用层面，基于EusCrawl训练的模型已广泛应用于巴斯克语地区的智能服务系统。新闻媒体机构利用其构建自动摘要生成工具，教育领域开发出语法检查与写作辅助平台，公共服务部门则借助该语料训练多轮对话系统。这些应用显著提升了巴斯克语在数字环境中的功能性，为少数民族语言在人工智能时代的传承提供了技术支撑。

数据集最近研究