five

classla/xlm-r-bertic-data

收藏
Hugging Face2024-05-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/classla/xlm-r-bertic-data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含115亿个克罗地亚语、波斯尼亚语、黑山语和塞尔维亚语的文本单词,是BERTić-data数据集的扩展。新增了MaCoCu HBS爬取集合和mC4 HBS数据集。数据集通过`onion`工具基于5个单词的元组进行去重,重复阈值为90%。
提供机构:
classla
原始信息汇总

XLM-R-BERTić 数据集

组成和用途

该数据集包含 115 亿字的克罗地亚语、波斯尼亚语、黑山语和塞尔维亚语文本。

它是 BERTić-data 数据集 的扩展,后者是一个包含 84 亿字的集合,用于预训练 BERTić 模型论文)。在此数据集中有两个主要新增部分:MaCoCu HBS 爬虫集合,一个新闻项目爬虫集合,以及 mC4 HBS 数据集。去重顺序如下:

  • macocu_hbs
  • hr_news
  • mC4
  • BERTić-data
    • hrwac
    • classla_hr
    • cc100_hr
    • riznica
    • srwac
    • classla_sr
    • cc100_sr
    • bswac
    • classla_bs
    • cnrwac

数据集使用 onion 基于 5 元组单词进行去重,重复阈值设置为 90%。

整个数据集可以按以下方式下载和使用: python import datasets dict_of_datasets = datasets.load_dataset("classla/xlm-r-bertic-data") full_dataset = datasets.concatenate_datasets([d for d in dict_of_datasets.values()])

也可以单独获取某个分片,但请注意这会下载和生成所有分片,可能需要较长时间: python import datasets riznica = datasets.load_dataset("classla/xlm-r-bertic-data", split="riznica")

为了避免这种情况,可以使用流式处理: python import datasets riznica = datasets.load_dataset("classla/xlm-r-bertic-data", split="riznica", streaming=True) for i in riznica.take(2): print(i)

输出:

{text: PRAGMATIČARI DOGMATI SANJARI}

{text: Ivica Župan}

如果使用此数据集,请引用以下文献:

@inproceedings{ljubesic-etal-2024-language, title = "Language Models on a Diet: Cost-Efficient Development of Encoders for Closely-Related Languages via Additional Pretraining", author = "Ljube{v{s}}i{c}, Nikola and Suchomel, V{\i}t and Rupnik, Peter and Kuzman, Taja and van Noord, Rik", editor = "Melero, Maite and Sakti, Sakriani and Soria, Claudia", booktitle = "Proceedings of the 3rd Annual Meeting of the Special Interest Group on Under-resourced Languages @ LREC-COLING 2024", month = may, year = "2024", address = "Torino, Italia", publisher = "ELRA and ICCL", url = "https://aclanthology.org/2024.sigul-1.23", pages = "189--203", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作