da-wiki-icc

Hugging Face2025-09-13 更新2025-09-14 收录

下载链接：

https://huggingface.co/datasets/V4ldeLund/da-wiki-icc

下载链接

链接失效反馈

官方服务：

资源简介：

丹麦维基百科图像、标题、上下文数据集，包含170,585个图像-文本对，存储在约5GiB的Parquet文件中，语言为丹麦语。

创建时间：

2025-09-09

原始信息汇总

数据集概述

基本信息

名称: Danish Wikipedia — Image, Caption, Context
语言: 丹麦语 (da)
记录数: 170,585 个图像-文本对
存储格式: Parquet 文件（约 5 GiB 每个）
许可证: CC-BY-4.0

数据来源

来源: 丹麦维基百科文本和维基媒体图像

数据集结构

字段说明

字段名	类型	描述
`url`	字符串	维基百科文章 URL
`image_urls`	字符串	图像 URL
`images`	二进制	原始图像字节
`captions`	字符串	清理后的图像标题文本
`neighbouring_context`	字符串	图像附近的章节文本
`row_id`	int64	合并文件中的行索引
`full_text_row_id`	int64	同一合并文件中包含文章全文的行 ID
`has_full_text`	布尔值	仅每篇文章的第一行为 True
`full text`	字符串	完整的文章 markdown 内容

文件与分割

单一分割: train
文件路径: data/merged_*.parquet

数据创建

创建理由

创建比常规 WIT 数据集具有更多文本上下文的大型图像-文本数据集。

数据处理流程

获取与转换: 下载文章 HTML 并使用 MarkItDown 转换为 Markdown
Markdown 清理: 修剪到第一个标题，删除典型结尾部分，移除内联引用脚注
图像提取: 解析 Markdown 行中的普通图像、链接图像和图库项目
邻近上下文: 识别图像上方的 H2 章节作为邻近上下文
优化: 每篇文章仅第一行保留完整文章 6. 分割: 将数据集分成 78 个约 5 GiB 的 Parquet 文件

维护信息

维护者: Vladimir Salnikov
联系方式: v4ldesalnikov@gmail.com
问题反馈: 在数据集的 Hugging Face 页面开启讨论

搜集汇总

数据集介绍

构建方式

在跨模态数据集成领域，丹麦维基百科图像-文本数据集通过系统化流程构建。原始数据源自丹麦语维基百科的HTML文档，经由MarkItDown工具转换为Markdown格式，随后通过正则表达式精准提取图像及其标注文本。数据处理过程中剔除了文献注释和外部链接等非核心内容，并采用章节标题定位策略确定图像的上下文语境。最终通过帕鲁quet格式分块存储，在保持数据完整性的同时优化了存取效率。

使用方法

使用者可通过HuggingFace数据集库直接加载该资源，利用内置图像解码功能将二进制数据转换为可处理的图像对象。针对多模态模型训练，可同时调用图像数据、标注文本及上下文信息构建丰富的输入特征。研究人员应注意数据文件按约5GB分块存储的特性，建议采用流式加载方式处理大规模数据。该数据集特别适用于图像描述生成、跨模态检索等深度学习任务，完整的数据结构支持复杂的语境分析需求。

背景与挑战

背景概述

丹麦维基百科图像-文本数据集da-wiki-icc由研究人员Vladimir Salnikov于近期构建，旨在解决多模态机器学习中丹麦语图像描述任务的语料稀缺问题。该数据集依托丹麦维基百科的开放知识库，系统性地整合了17万条图像-文本对，不仅包含局部标注信息，还创新性地引入了章节上下文与全文标记数据。作为北欧语言多模态研究的重要基础设施，它显著提升了低资源语言在视觉-语言建模领域的表征能力，为跨语言迁移学习提供了关键支撑。

当前挑战

该数据集核心挑战在于突破传统图像描述数据集的语境局限性，需同步处理图像局部描述与文档全局语义的关联性。构建过程中面临丹麦语语法复杂性带来的标记化难题，以及维基百科异构排版导致的图像-文本对齐噪声。此外，大规模多媒体数据的去重存储与跨文件引用机制对分布式处理架构提出了严格要求，而北欧语言特有的复合词结构与文化语境也增加了语义标注的一致性保障难度。

常用场景

经典使用场景

在跨模态学习领域，da-wiki-icc数据集为丹麦语视觉语言任务提供了重要支撑。其典型应用场景包括图像描述生成模型的训练与评估，研究者利用图像与对应标题、上下文文本的配对关系，构建端到端的多模态理解系统。该数据集通过提供丰富的邻近语境和完整文章标记，使模型能够学习图像与不同粒度文本之间的语义关联，为北欧语言的多模态研究奠定数据基础。

解决学术问题

该数据集有效解决了低资源语言多模态研究中数据稀缺的核心问题。通过提供超过17万条高质量图像-文本对，它支持研究者探索丹麦语场景下的视觉问答、跨模态检索和零样本学习等前沿课题。其独特的邻近语境标注方式突破了传统图像描述数据集的局限，为理解图像在具体语境中的语义角色提供了新的研究维度，显著推进了北欧语言多模态模型的学术进展。

实际应用

在实际应用层面，该数据集为丹麦语地区的智能系统开发提供了关键资源。基于其训练的多模态模型可应用于新闻媒体的自动配图系统、教育领域的可视化知识讲解，以及文化遗产的数字存档与检索。电子商务平台可利用其构建丹麦语商品图像搜索系统，而博物馆和图书馆则能借助其实现历史资料的智能标注与跨模态检索，有效提升信息服务的智能化水平。

数据集最近研究