classla/xlm-r-bertic-data
收藏XLM-R-BERTić 数据集
组成和用途
该数据集包含 115 亿字的克罗地亚语、波斯尼亚语、黑山语和塞尔维亚语文本。
它是 BERTić-data 数据集 的扩展,后者是一个包含 84 亿字的集合,用于预训练 BERTić 模型(论文)。在此数据集中有两个主要新增部分:MaCoCu HBS 爬虫集合,一个新闻项目爬虫集合,以及 mC4 HBS 数据集。去重顺序如下:
- macocu_hbs
- hr_news
- mC4
- BERTić-data
- hrwac
- classla_hr
- cc100_hr
- riznica
- srwac
- classla_sr
- cc100_sr
- bswac
- classla_bs
- cnrwac
数据集使用 onion 基于 5 元组单词进行去重,重复阈值设置为 90%。
整个数据集可以按以下方式下载和使用: python import datasets dict_of_datasets = datasets.load_dataset("classla/xlm-r-bertic-data") full_dataset = datasets.concatenate_datasets([d for d in dict_of_datasets.values()])
也可以单独获取某个分片,但请注意这会下载和生成所有分片,可能需要较长时间: python import datasets riznica = datasets.load_dataset("classla/xlm-r-bertic-data", split="riznica")
为了避免这种情况,可以使用流式处理: python import datasets riznica = datasets.load_dataset("classla/xlm-r-bertic-data", split="riznica", streaming=True) for i in riznica.take(2): print(i)
输出:
{text: PRAGMATIČARI DOGMATI SANJARI}
{text: Ivica Župan}
如果使用此数据集,请引用以下文献:
@inproceedings{ljubesic-etal-2024-language, title = "Language Models on a Diet: Cost-Efficient Development of Encoders for Closely-Related Languages via Additional Pretraining", author = "Ljube{v{s}}i{c}, Nikola and Suchomel, V{\i}t and Rupnik, Peter and Kuzman, Taja and van Noord, Rik", editor = "Melero, Maite and Sakti, Sakriani and Soria, Claudia", booktitle = "Proceedings of the 3rd Annual Meeting of the Special Interest Group on Under-resourced Languages @ LREC-COLING 2024", month = may, year = "2024", address = "Torino, Italia", publisher = "ELRA and ICCL", url = "https://aclanthology.org/2024.sigul-1.23", pages = "189--203", }



