community-datasets/bswac
收藏Hugging Face2024-01-11 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/bswac
下载链接
链接失效反馈官方服务:
资源简介:
BsWac数据集是一个波斯尼亚语的单语语料库,构建于2014年,通过爬取.ba顶级域名的网页内容创建。数据集经过段落级别的去重、通过恢复变音符号进行标准化、形态句法标注和词形还原处理。每个段落包含URL、域名和语言识别(波斯尼亚语、克罗地亚语、塞尔维亚语)的元数据。数据集主要用于文本生成和掩码语言建模任务。
The BsWac dataset is a Bosnian monolingual corpus constructed in 2014 by crawling web content from the .ba top-level domain. It has undergone paragraph-level deduplication, normalization via diacritic restoration, morphosyntactic annotation and lemmatization. Each paragraph contains metadata including the URL, domain name, and language identification tags, with the identifiable languages being Bosnian, Croatian and Serbian. The dataset is primarily used for text generation and masked language modeling tasks.
提供机构:
community-datasets
原始信息汇总
数据集概述
数据集描述
- 数据集名称: BsWac
- 语言: 波斯尼亚语(bs)
- 许可证: CC-BY-SA 3.0
- 多语言性: 单语种
- 大小类别: 100M<n<1B
- 源数据集: 原始数据
- 任务类别:
- 文本生成
- 填空
- 任务ID:
- 语言建模
- 掩码语言建模
数据集摘要
Bosnian web corpus bsWac 是通过在2014年抓取.ba顶级域名构建的。该语料库在段落级别进行了近似去重,通过音标恢复进行了规范化,进行了形态句法注释和词形还原。语料库按段落进行了洗牌。每个段落都包含有关URL、域和语言识别(波斯尼亚语 vs. 克罗地亚语 vs. 塞尔维亚语)的元数据。
数据集结构
数据字段
- sentence: 字符串类型
数据分割
- 训练集:
- 字节数: 8801535375
- 样本数: 354581267
数据集大小
- 下载大小: 1988514951
- 数据集大小: 8801535375
许可证信息
数据集使用 CC-BY-SA 3.0 许可证。
引用信息
@misc{11356/1062, title = {Bosnian web corpus {bsWaC} 1.1}, author = {Ljube{v s}i{c}, Nikola and Klubi{v c}ka, Filip}, url = {http://hdl.handle.net/11356/1062}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {Creative Commons - Attribution-{ShareAlike} 4.0 International ({CC} {BY}-{SA} 4.0)}, year = {2016} }
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



