community-datasets/srwac

Name: community-datasets/srwac
Creator: community-datasets
Published: 2024-01-18 11:16:20
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/community-datasets/srwac

下载链接

链接失效反馈

官方服务：

资源简介：

塞尔维亚网络语料库srWaC是通过在2014年爬取.rs顶级域名构建的。该语料库在段落级别进行了近重复去除，通过恢复变音符号进行了规范化，并进行了形态句法注释和词形还原。语料库按段落进行了打乱。每个段落包含有关URL、域名和语言识别（塞尔维亚语与克罗地亚语）的元数据。

The Serbian web corpus srWaC was constructed by crawling the .rs top-level domain in 2014. This corpus underwent near-duplicate removal at the paragraph level, was normalized through diacritic restoration, and was annotated with morphosyntactic information and lemmatized. The corpus was shuffled by paragraphs. Each paragraph includes metadata related to the URL, domain name, and language identification (Serbian vs. Croatian).

提供机构：

community-datasets

原始信息汇总

SrWac 数据集概述

数据集描述

数据集摘要

塞尔维亚网络语料库 srWac 是通过在 2014 年抓取 .rs 顶级域名构建的。该语料库在段落级别进行了近似去重，通过音标恢复进行了规范化，进行了形态句法注释和词形还原。语料库按段落进行了混洗。每个段落包含有关 URL、域和语言识别（塞尔维亚语与克罗地亚语）的元数据。

支持的任务和排行榜

[更多信息需补充]

语言

数据集是单语种的塞尔维亚语。

数据集结构

数据实例

[更多信息需补充]

数据字段

[更多信息需补充]

数据分割

[更多信息需补充]

数据集创建

策划理由

[更多信息需补充]

源数据

初始数据收集和规范化

[更多信息需补充]

源语言生产者

[更多信息需补充]

注释

注释过程

[更多信息需补充]

注释者

[更多信息需补充]

个人和敏感信息

[更多信息需补充]

使用数据的注意事项

数据集的社会影响

[更多信息需补充]

偏见的讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

[更多信息需补充]

许可信息

数据集在 CC-BY-SA 3.0 许可下发布。

引用信息

@misc{11356/1063, title = {Serbian web corpus {srWaC} 1.1}, author = {Ljube{v s}i{c}, Nikola and Klubi{v c}ka, Filip}, url = {http://hdl.handle.net/11356/1063}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {Creative Commons - Attribution-{ShareAlike} 4.0 International ({CC} {BY}-{SA} 4.0)}, year = {2016} }

贡献

感谢 @IvanZidov 添加此数据集。

搜集汇总

数据集介绍

构建方式

在塞尔维亚语自然语言处理领域，构建大规模语料库是支撑语言模型发展的基石。SrWac数据集的构建始于2014年，通过系统性地爬取.rs顶级域名下的网页内容，采集了丰富的网络文本。随后，研究团队对原始语料进行了精细处理，包括在段落级别进行去重、通过恢复变音符号实现文本规范化，并进一步完成了形态句法标注与词形还原。每个段落均附有来源URL、域名及语言识别（塞尔维亚语与克罗地亚语区分）等元数据，最终以段落为单位进行随机排序，形成了结构清晰、质量可控的语料资源。

特点

该数据集以其规模与处理深度在塞尔维亚语资源中占据重要地位。语料库容量介于1亿至10亿词汇之间，包含超过6.8亿个文本实例，为语言建模任务提供了充足的训练数据。其单语特性专注于塞尔维亚语，确保了语言表征的纯粹性与一致性。数据经过细致的预处理，包括去重与标注，提升了语料的洁净度与可用性。段落级别的随机排列有助于模型学习更泛化的语言模式，而附带的元数据则为语料溯源与领域分析提供了便利。

使用方法

SrWac数据集主要应用于文本生成与掩码语言建模等自然语言处理任务。研究人员可直接下载预处理后的语料，将其导入机器学习框架进行模型训练。鉴于其规模，通常采用分布式训练或分批加载策略以高效利用数据。在具体应用中，该语料可用于预训练塞尔维亚语专用语言模型，或作为基线语料评估模型性能。使用者需遵循CC-BY-SA 3.0许可协议，并注意语料源自网络，可能包含非正式表达，建议根据具体任务进行适当的后处理或过滤。

背景与挑战

背景概述

在自然语言处理领域，低资源语言的语料库建设一直是推动语言技术普及的关键环节。塞尔维亚语作为南斯拉夫语系的重要分支，其数字资源的系统化整理始于2014年，由萨格勒布大学的研究人员Nikola Ljubešič与Filip Klubička主导构建了SrWac数据集。该数据集通过爬取.rs顶级域名，经过近重复段落去重、变音符号恢复及形态句法标注等处理，形成了包含约6.9亿段落的大规模文本集合，为塞尔维亚语的预训练模型开发提供了基础资源，显著促进了巴尔干地区语言技术的均衡发展。

当前挑战

SrWac数据集面临的挑战主要体现在两方面：在领域问题层面，塞尔维亚语作为形态复杂的屈折语，其丰富的格变与动词变位体系对语言模型的掩码预测和生成任务构成了深层语法理解障碍；在构建过程中，网络文本的异质性导致了方言与标准语变体混杂，加之域名爬取范围有限，需通过复杂的去重与音素规范化技术来提升语料纯净度，同时平衡数据规模与标注质量间的张力亦是持续存在的难题。

常用场景

经典使用场景

在自然语言处理领域，SrWac数据集作为塞尔维亚语的大规模文本资源，其经典使用场景主要集中于语言模型的预训练与评估。该数据集通过爬取.rs顶级域名的网页内容构建，经过近重复段落去重、音调符号恢复及形态句法标注处理，为研究者提供了丰富的真实语言样本。这些特性使得SrWac成为训练掩码语言模型和生成式语言模型的理想素材，尤其在低资源语言处理中，它能够有效支撑模型学习塞尔维亚语的语法结构、词汇分布及语境模式，从而提升模型在特定任务上的泛化能力。

衍生相关工作

围绕SrWac数据集，已衍生出多项经典研究工作，显著丰富了塞尔维亚语自然语言处理的学术生态。例如，研究者利用该数据集训练了专门的塞尔维亚语BERT变体，这些模型在命名实体识别、文本分类等下游任务中展现了优越性能；同时，基于SrWac的跨语言对比研究，探讨了斯拉夫语系内部的语义迁移机制。此外，该数据集还支撑了低资源语言模型压缩与高效微调方法的探索，为资源受限环境下的模型部署提供了可行路径。这些工作共同推动了塞尔维亚语计算语言学的理论进展与实践创新。

数据集最近研究