five

IGC-2024

收藏
Hugging Face2025-05-27 更新2025-05-28 收录
下载链接:
https://huggingface.co/datasets/arnastofnun/IGC-2024
下载链接
链接失效反馈
官方服务:
资源简介:
冰岛Gigaword语料库(IGC)是一个大规模的冰岛语文本数据集,包含各种领域的文本,如裁决、期刊、法律、新闻、议会数据、社交平台和维基百科。数据集分为公开许可和受限制许可两部分,公开许可部分包含约14.6亿个运行词。数据集以JSONL格式提供,方便用户根据需要加载和操作。
创建时间:
2025-05-27
原始信息汇总

数据集概述:THE ICELANDIC GIGAWORD CORPUS - JSONL-FORMAT

数据集基本信息

  • 许可证: CC-BY-4.0
  • 数据集地址: https://huggingface.co/datasets/arnastofnun/IGC-2024
  • 版本: IGC-2022 (22.10) 和 IGC-2024ext (24.10ext)
  • 总词数: 约1,460百万词(仅包含开放许可证部分)

数据集组成

主要语料库

  1. IGC-Adjud: 法院判决(上诉法院、地方法院、最高法院)
  2. IGC-Journals: 科学期刊
  3. IGC-Law: 法律文本(法案、法律、提案)
  4. IGC-News1: 新闻文本(多种类型)
  5. IGC-Parla: 议会数据
  6. IGC-Social: 社交媒体(博客、论坛)
  7. IGC-Wiki: 维基百科

子语料库

  • IGC-Adjud: 3个子集
  • IGC-Journals: 20个子集
  • IGC-Law: 3个子集
  • IGC-News1: 28个子集
  • IGC-Social: 6个子集
  • IGC-Wiki: 1个子集

数据格式

  • 格式: JSONL
  • 每条记录包含:
    • document: 文本内容(段落用`

`分隔)

  • uuid: 随机生成的ID
  • metadata: 元数据(作者、发布时间、标题、段落、句子等)

数据质量分类

  • 质量等级: A(最高)到 C(最低)
  • 评估方法: 使用Byte-Level Neural Error Correction Model和Greynir工具分析错误率和外语句子比例

使用示例

python from datasets import load_dataset dataset = load_dataset("arnastofnun/IGC-2024", "igc_news1_visir")

许可证

  • 许可证类型: CC-BY-4.0
  • 许可证链接: https://creativecommons.org/licenses/by/4.0/

相关资源

  • IGC官方网站: https://igc.arnastofnun.is
  • IGC-2022下载: http://hdl.handle.net/20.500.12537/253
  • JSONL转换工具: http://hdl.handle.net/20.500.12537/332
搜集汇总
数据集介绍
main_image_url
构建方式
IGC-2024数据集作为冰岛语超大规模语料库的最新版本,其构建过程体现了严谨的学术规范。语料来源覆盖司法裁决、议会记录、新闻媒体、学术期刊、社交媒体等九大领域,通过TEI格式原始数据的系统化采集与清洗完成。技术团队采用版本控制策略,22.10版本收录截至2021年的文本,24.10ext版本则主要补充2022-2023年数据,并对法律条文等特殊文本进行全量更新。数据去重处理确保不同版本间文本的唯一性,最终通过专用转换工具将XML源文件转化为标准化的JSONL格式。
特点
该数据集最显著的特征在于其多维度分类体系。1.57亿词汇量按13个专业领域精细划分,包括司法判决、议会提案、专业期刊等垂直领域。质量评估体系独具特色,基于神经纠错模型和语法分析工具,将86个子语料库按错误率分为A-C三级。数据元数据设计科学,每条记录包含文本内容、UUID标识及丰富的结构信息,段落与句子级别的偏移量标注为NLP任务提供便利。开放许可部分涵盖7个主要语料库,排除Twitter数据后的语料规模仍达14.57亿词汇。
使用方法
研究者可通过两种范式使用该数据集。模块化调用支持按子语料库ID精准加载特定领域数据,如'igc_news1_visir'指向特定新闻源。程序化筛选方案则支持基于质量等级、语料类型等元数据动态构建定制数据集,示例代码演示了如何串联多个A级新闻语料。数据以JSONL格式组织,每条记录包含原始文档全文及出版时间、作者等元信息,段落与句子级别的字符偏移标注特别适合文本分割任务。需要注意的是,部分早期文本因历史拼写规则差异可能影响现代语言模型的训练效果。
背景与挑战
背景概述
IGC-2024(冰岛语十亿词库)是由冰岛Árni Magnússon研究所主导构建的大规模语言资源,旨在为冰岛语自然语言处理研究提供高质量文本数据。该数据集起源于2022年发布的IGC-2022版本,收录了截至2021年的文本,规模达24亿词;2024年扩展版新增2022-2023年数据,特别强化了议会法律文本的时效性覆盖。数据集涵盖司法裁决、新闻媒体、学术期刊、议会记录、社交媒体等9大领域86个子库,采用CC-BY许可开放7个核心语料库,总量约14.57亿词项。其创新性体现在对冰岛语多领域文本的系统性整合,为低资源语言建模提供了重要基础设施。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决冰岛语作为低资源语言的语料稀疏性问题,尤其需要平衡法律术语、方言变体等专业领域语言与通用语料的表征关系;在构建技术层面,原始文本存在OCR识别错误(如学术期刊)、历史拼写变异(如20世纪议会记录)、以及社交媒体非规范文本的噪声过滤难题。特别值得注意的是,部分新闻文本因格式转换导致标题与正文粘连,而推特数据因授权限制需用户自行获取,这些因素均对数据质量一致性提出了严峻考验。
常用场景
经典使用场景
IGC-2024数据集作为冰岛语大规模文本资源的代表,其经典使用场景主要集中在自然语言处理领域中的语言模型预训练任务。该数据集涵盖司法裁决、新闻媒体、议会记录、科学期刊等多样化文本类型,为研究者提供了丰富的语言特征和语境信息。在低资源语言处理研究中,该数据集常被用于构建冰岛语专用BERT、GPT等预训练模型,以解决语言资源匮乏导致的模型性能瓶颈问题。
实际应用
在实际应用层面,IGC-2024支撑着冰岛语智能服务的开发,包括司法文书自动摘要、议会会议纪要生成等政府应用场景。新闻媒体机构利用其子库构建个性化推荐系统,而教育机构则基于科学期刊子库开发学术写作辅助工具。数据集包含的时序文本(2000-2023年)更为语言变迁研究提供了纵向分析基础。
衍生相关工作
基于该数据集衍生的经典工作包括冰岛大学开发的IceBERT预训练模型,以及结合司法子库的法律判决预测系统。阿尔纳斯塔芬研究所利用议会记录子库构建的立法影响分析工具,成为政策研究的标杆案例。在跨语言研究方面,该数据集与挪威语、丹麦语资源的对比研究,推动了北日耳曼语族语言技术的协同发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作