classla/xlm-r-bertic-data

Name: classla/xlm-r-bertic-data
Creator: classla
Published: 2024-05-29 09:42:17
License: 暂无描述

Hugging Face2024-05-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/classla/xlm-r-bertic-data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含115亿个克罗地亚语、波斯尼亚语、黑山语和塞尔维亚语的文本单词，是BERTić-data数据集的扩展。新增了MaCoCu HBS爬取集合和mC4 HBS数据集。数据集通过`onion`工具基于5个单词的元组进行去重，重复阈值为90%。

提供机构：

classla

原始信息汇总

XLM-R-BERTić 数据集

组成和用途

该数据集包含 115 亿字的克罗地亚语、波斯尼亚语、黑山语和塞尔维亚语文本。

它是 BERTić-data 数据集的扩展，后者是一个包含 84 亿字的集合，用于预训练 BERTić 模型（论文）。在此数据集中有两个主要新增部分：MaCoCu HBS 爬虫集合，一个新闻项目爬虫集合，以及 mC4 HBS 数据集。去重顺序如下：

macocu_hbs
hr_news
mC4
BERTić-data
- hrwac
- classla_hr
- cc100_hr
- riznica
- srwac
- classla_sr
- cc100_sr
- bswac
- classla_bs
- cnrwac

数据集使用 onion 基于 5 元组单词进行去重，重复阈值设置为 90%。

整个数据集可以按以下方式下载和使用： python import datasets dict_of_datasets = datasets.load_dataset("classla/xlm-r-bertic-data") full_dataset = datasets.concatenate_datasets([d for d in dict_of_datasets.values()])

也可以单独获取某个分片，但请注意这会下载和生成所有分片，可能需要较长时间： python import datasets riznica = datasets.load_dataset("classla/xlm-r-bertic-data", split="riznica")

为了避免这种情况，可以使用流式处理： python import datasets riznica = datasets.load_dataset("classla/xlm-r-bertic-data", split="riznica", streaming=True) for i in riznica.take(2): print(i)

输出:

{text: PRAGMATIČARI DOGMATI SANJARI}

{text: Ivica Župan}

如果使用此数据集，请引用以下文献：

@inproceedings{ljubesic-etal-2024-language, title = "Language Models on a Diet: Cost-Efficient Development of Encoders for Closely-Related Languages via Additional Pretraining", author = "Ljube{v{s}}i{c}, Nikola and Suchomel, V{\i}t and Rupnik, Peter and Kuzman, Taja and van Noord, Rik", editor = "Melero, Maite and Sakti, Sakriani and Soria, Claudia", booktitle = "Proceedings of the 3rd Annual Meeting of the Special Interest Group on Under-resourced Languages @ LREC-COLING 2024", month = may, year = "2024", address = "Torino, Italia", publisher = "ELRA and ICCL", url = "https://aclanthology.org/2024.sigul-1.23", pages = "189--203", }

5,000+

优质数据集

54 个

任务类型

进入经典数据集