five

arnastofnun/IGC-2024

收藏
Hugging Face2025-05-28 更新2025-11-01 收录
下载链接:
https://hf-mirror.com/datasets/arnastofnun/IGC-2024
下载链接
链接失效反馈
官方服务:
资源简介:
冰岛Gigaword语料库(IGC)是一个包含冰岛语的大规模语料库,包含各种子语料库,如判决、博客、新闻、议会数据、科学期刊和维基百科等。这些子语料库被分为不同的领域和质量类别。数据集以JSONL格式提供,适合用于语言模型训练。数据集包括两个版本:IGC-2022和IGC-2024ext,分别包含2021年底之前的文本和2022年及2023年的文本。数据集在CC-BY许可下发布,并提供详细的下载和使用说明。

The Icelandic Gigaword Corpus (IGC) is a large-scale Icelandic language corpus containing various subcorpora such as adjudications, blogs, news, parliamentary data, scientific journals, and Wikipedia. These subcorpora are categorized into different domains and quality ratings. The dataset is provided in JSONL format, suitable for LLM training. The dataset includes two versions: IGC-2022 and IGC-2024ext, covering texts up to the end of 2021 and from 2022 and 2023, respectively. The dataset is published under the CC-BY license and provides detailed instructions for downloading and using the data.
提供机构:
arnastofnun
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作