IGC-2022-1
收藏Hugging Face2025-05-28 更新2025-05-29 收录
下载链接:
https://huggingface.co/datasets/arnastofnun/IGC-2022-1
下载链接
链接失效反馈官方服务:
资源简介:
冰岛语Gigaword语料库(IGC)是一个包含近24亿词的8个子语料库集合。其中部分子语料库以开放许可(CC-BY)发布,包括期刊、法律、新闻1、议会、社交和维基等子集。每个子集可能包含两个或多个子语料库。此数据集以jsonl格式存储,每个文件包含一篇新闻文章或议会会议等。每行是一个JSON对象,包含文档全文、随机生成的ID、作者、转换时间戳、原始XML文件ID、发布时间戳、标题、段落和句子偏移量及长度信息、文本来源等元数据。
创建时间:
2025-05-28
原始信息汇总
数据集概述:ICELANDIC GIGAWORD CORPUS (IGC-2022-1)
重要通知
- 此数据集已删除,建议使用更新更大的版本:IGC-2024
数据集基本信息
- 原始版本:22.10 (下载链接)
- 总规模:8个子语料库,约24亿词
- 格式:JSONL(适用于LLM训练)
许可信息
- 许可证类型:CC-BY 4.0 (详情)
子语料库分类
开放许可子语料库
| 语料库名称 | 词数(百万) |
|---|---|
| IGC-Journals | 20.9 |
| IGC-Law | 53.3 |
| IGC-News1 | 396.7 |
| IGC-Parla | 254.1 |
| IGC-Social | 724.0 |
| IGC-Wiki | 8.5 |
受限许可子语料库
| 语料库名称 | 词数(百万) |
|---|---|
| IGC-Books | 13.8 |
| IGC-News2 | 899.8 |
数据结构
- JSONL格式说明: json { "document": "全文(段落用\n\n分隔)", "uuid": "随机生成的ID", "metadata": { "author": "原作者(如有)", "fetch_timestamp": "转换日期", "xml_id": "原始XML文件ID", "publish_timestamp": "原始文本发布日期", "title": {"offset": null, "length": null}, "paragraphs": [{"offset": null, "length": null}, ...], "sentences": [{"offset": null, "length": null}, ...], "source": "原始文本来源" } }
使用方式
-
加载单个子语料库: python dataset_info = load_dataset("arnastofnun/IGC-2022-1", subset)
-
批量加载示例: python from datasets import load_dataset, concatenate_datasets dataset_info = load_dataset("arnastofnun/IGC-2022-1","info")
领域分类
共13个领域/类型,包括:
- 判决书(IGC-Adjud)
- 博客(IGC-Social2)
- 新闻(IGC-News1/News2)
- 议会数据(IGC-Parla, IGC-Law)
- 科学期刊(IGC-Journals)
- 维基百科(IGC-Wiki)等
质量评估
- 等级划分:A-C(A为错误/外语句子最少)
- 评估方法:使用Byte-Level Neural Error Correction Model和Greynir工具分析
搜集汇总
数据集介绍

构建方式
冰岛语十亿词库(IGC-2022-1)的构建基于多源文本整合,涵盖新闻、法律、社交媒体等八大语料库,总规模达24亿词。该数据集通过提取开放许可的子语料,采用JSONL格式转换工具将原始XML文件转化为适合大语言模型训练的标准化结构。转换过程中保留了文本的段落划分与元数据信息,同时排除了Twitter等因权限限制无法分发的数据源,确保了数据集的合法性与完整性。
使用方法
用户可通过HuggingFace平台按子语料库标识符单独加载数据,例如调用'igc_news1_visir'子集。数据集支持脚本化筛选,允许根据质量等级、领域类型等元数据动态组合语料。加载后的JSONL对象包含全文内容、唯一标识符及详细的元数据字段,如发布时间、作者信息等。研究者可进一步利用段落偏移量快速定位文本片段,或通过拼接多个子集构建定制化训练语料。
背景与挑战
背景概述
冰岛十亿词库(Icelandic Gigaword Corpus, IGC)作为冰岛语自然语言处理领域的重要资源,由冰岛Árni Magnússon研究所于2022年10月发布。该语料库整合了新闻、法律、社交媒体、议会记录、学术期刊及维基百科等八大类文本,总规模达24亿词,旨在为冰岛语的大规模语言模型训练提供高质量数据支持。其构建不仅填补了低资源语言语料库的空白,更推动了冰岛语在机器翻译、文本生成等方向的研究进展,成为冰岛语数字人文研究的基础设施。
当前挑战
IGC语料库面临的核心挑战在于低资源语言的数据稀缺性与质量控制的平衡。一方面,冰岛语作为小语种,可用文本规模有限,且需应对古拼写规则演变、OCR识别错误等历史文本处理难题;另一方面,社交媒体数据因版权限制无法直接分发,需用户自行获取原始数据并通过脚本重构,增加了使用复杂度。此外,语料质量评估中,新闻标题粘连、专业期刊OCR错误等加工过程引入的噪声,进一步凸显了多源异构数据融合与标准化处理的艰巨性。
常用场景
经典使用场景
在冰岛语自然语言处理研究中,IGC-2022-1数据集作为大规模语料库的典型代表,广泛应用于语言模型的预训练与微调。其JSONL格式优化了数据加载效率,支持按子集灵活调用,特别适合针对新闻、法律、社交媒体等垂直领域开展语言建模实验。研究者常利用其高质量标注的段落与句子偏移信息,构建针对冰岛语语法特性(如复杂的屈折变化)的专用模型,显著提升了低资源语言的技术适配性。
解决学术问题
该数据集通过整合近24亿词的多领域文本,有效缓解了冰岛语作为低资源语言在自然语言处理研究中数据匮乏的困境。其按质量分级(A-C类)的语料筛选机制,为语言模型鲁棒性研究提供了基准数据,尤其助力于纠错模型开发与方言变异分析。开放许可的子集(如IGC-News1、IGC-Parla)更推动了跨机构合作,为冰岛语语法数字化描述、历时语言变迁研究奠定了数据基础。
实际应用
在实际应用中,IGC-2022-1支撑了冰岛语智能写作助手、新闻摘要生成系统等产品的开发。其议会演讲与法律文本子集被司法机构用于构建法律条文检索工具,而社交媒体数据则助力企业进行舆情监测。教育领域利用该数据集的维基百科和期刊内容,开发出适配冰岛语教学的语言学习平台,显著提升了语言技术在社会服务中的渗透率。
数据集最近研究
最新研究方向
在冰岛语自然语言处理领域,IGC-2022-1数据集作为大规模语料资源,近期研究聚焦于低资源语言模型的预训练与优化。随着多语言大语言模型的兴起,该数据集被广泛应用于冰岛语文本生成、语法纠错及领域自适应任务,尤其在结合Byte-Level神经纠错模型提升语料质量方面取得进展。此外,针对社交媒体和新闻等开放许可子语料的分析,助力冰岛语语言技术的本土化发展,为文化遗产数字化提供关键数据支撑。
以上内容由遇见数据集搜集并总结生成



