WAON

Name: WAON
Creator: LLM-jp
Published: 2025-10-28 21:01:49
License: 暂无描述

Hugging Face2025-10-28 更新2025-10-29 收录

下载链接：

https://huggingface.co/datasets/llm-jp/WAON

下载链接

链接失效反馈

官方服务：

资源简介：

WAON是一个包含大约1.55亿个示例的大规模、高质量的日文图像-文本对数据集，用于视觉语言模型训练。数据集由Common Crawl的快照构建而成，并通过复杂的数据处理流程进行了高质量和多样性的筛选与去重。

提供机构：

LLM-jp

创建时间：

2025-10-28

原始信息汇总

WAON数据集概述

数据集基本信息

名称：WAON
描述：大规模高质量日语图文对数据集，用于视觉语言模型
语言：日语
许可证：Apache 2.0
数据规模：约1.54亿个样本

数据特征

数据来源：从Common Crawl爬取，基于2025-18、2025-08、2024-51、2024-42、2024-33和2024-26的快照构建
数据格式：包含12个特征字段
- url：图像URL
- caption：图像关联标题
- similarity：相似度分数
- page_title：页面标题
- page_url：页面URL
- punsafe：图像不安全概率
- width：调整后图像宽度
- height：调整后图像高度
- original_width：原始图像宽度
- original_height：原始图像高度
- sha256：原始图像文件SHA-256哈希值
- phash：调整后图像感知哈希值

技术规格

数据集大小：72,405,439,283字节
下载大小：46,743,814,850字节
训练集样本数：153,942,892
规模分类：1亿<n<10亿

质量控制

基于图像尺寸和SigLIP分数进行过滤
使用URL、标题和感知哈希进行去重处理
采用复杂数据处理流程确保高质量和多样性

使用方式

可通过datasets库加载数据集： python from datasets import load_dataset ds = load_dataset("parquet", data_dir="data")

法律声明

本数据集受日本法律管辖，使用仅限于日本著作权法第30-4条定义的"信息分析"范畴。

搜集汇总

数据集介绍

构建方式

在构建大规模视觉语言模型数据集的背景下，WAON数据集通过系统化的数据采集与处理流程实现高质量构建。该数据集源自Common Crawl在2025年至2024年间六个时间节点的网络快照，采用多阶段过滤机制：首先基于图像尺寸与SigLIP相似度评分进行内容筛选，随后通过URL去重、文本描述去重以及感知哈希技术消除冗余数据，最终形成包含约1.55亿条日语图文对的精炼数据集。

特点

作为专攻日语视觉语言建模的稀缺资源，WAON数据集展现出规模性与质量并重的特质。其核心优势体现在多维元数据架构，不仅涵盖图像URL、文本描述及页面信息，更包含安全性概率评估、图像质量指标、原始与处理后尺寸参数，并辅以SHA-256文件校验与感知哈希值，为模型训练提供了细粒度质量控制维度。

使用方法

针对视觉语言模型的研发需求，该数据集可通过标准化流程快速部署。用户需克隆GitLab存储库后，借助HuggingFace数据集库的Parquet加载接口读取数据目录。数据条目以结构化字段呈现，包括图像地址、关联文本、页面元数据及质量指标，支持直接嵌入现代多模态模型的预处理流水线。

背景与挑战

背景概述

随着多模态人工智能技术的快速发展，构建高质量视觉语言模型成为学术界与工业界的核心需求。WAON数据集由日本国立情报学研究所等机构于2025年发布，旨在填补日语图像文本配对数据的空白。该数据集基于2024至2025年间采集的网络快照构建，涵盖约1.55亿条样本，通过严格的图像尺寸筛选、SigLIP评分过滤及多重去重技术，为日语多模态研究提供了重要基础资源。

当前挑战

在视觉语言模型领域，日语多模态数据稀缺性构成主要障碍，WAON需解决跨模态语义对齐的复杂性。数据构建过程中面临网络原始数据质量参差不齐的难题，需通过感知哈希去重消除近重复样本，同时运用概率安全评估机制过滤不当内容。大规模数据清洗还需平衡语义丰富度与噪声剔除的阈值设定，确保数据多样性与质量并重。

常用场景

经典使用场景

在视觉语言模型研究领域，WAON数据集作为大规模日语图文对资源，主要应用于跨模态表示学习的训练与评估。该数据集通过严格的图像尺寸筛选和SigLIP评分过滤机制，确保了图文对之间的语义关联性，为模型理解日语文化背景下的视觉语义关联提供了坚实基础。研究者常利用其构建的1.55亿条高质量样本，训练能够精准解析日本社会文化元素的视觉语言模型，显著提升了模型在日语语境下的多模态理解能力。

衍生相关工作

受WAON数据集启发，学术界涌现出多项创新性研究。例如基于其去重机制改进的多模态数据清洗框架，以及结合SigLIP评分优化的日语图文检索系统。这些衍生工作不仅深化了对日语多模态表示学习的理论认知，更催生了面向特定领域的模型微调方法，为构建更适应日本社会需求的视觉语言技术生态系统提供了持续动力。

数据集最近研究