WAON

github2025-10-28 更新2025-10-29 收录

下载链接：

https://github.com/llm-jp/WAON

下载链接

链接失效反馈

官方服务：

资源简介：

WAON是一个大规模高质量的日语图像-文本对数据集，包含约1.55亿个从Common Crawl收集的样本。该数据集专为视觉语言模型设计，通过多阶段流程构建，包括数据收集、去重、图像下载、质量过滤（尺寸、NSFW内容）和CLIP评分筛选。还包含WAON-Bench基准测试，用于评估日语文化图像分类性能。

WAON is a large-scale high-quality Japanese image-text pair dataset consisting of approximately 155 million samples collected from Common Crawl. Tailored for vision-language models, this dataset is constructed through a multi-stage pipeline including data collection, deduplication, image downloading, quality filtering (covering image dimensions and NSFW content) and CLIP score-based screening. It also includes the WAON-Bench benchmark, which is used to evaluate the performance of Japanese cultural image classification.

创建时间：

2025-10-02

原始信息汇总

WAON数据集概述

数据集基本信息

数据集名称：WAON
数据规模：约1.55亿个日文图像-文本对
数据来源：Common Crawl
主要用途：视觉语言模型训练

数据集特点

语言类型：日语
数据质量：高质量图像-文本对
处理流程：包含多阶段过滤和优化步骤

构建流程

从Common Crawl收集WARC文件URL
下载并提取包含日文文本的HTML文件
从HTML文件中提取图像-文本对
去重图像URL和标题
下载图像
基于分辨率和宽高比过滤图像
使用预训练模型过滤NSFW内容
计算图像感知哈希值
基于感知哈希相似度进行图像去重
使用SigLIP2-base模型标注CLIP相似度分数
过滤低CLIP分数的图像-文本对

评估基准

WAON-Bench：人工策划的日本文化图像分类基准
评估结果：在多个日本文化基准测试中达到最先进性能

相关资源

论文：https://arxiv.org/abs/2510.22276
HuggingFace：https://huggingface.co/collections/speed/waon
代码仓库：https://github.com/llm-jp/WAON

搜集汇总

数据集介绍

构建方式

在构建大规模日语视觉语言数据集的过程中，WAON采用了系统化的数据收集与处理流程。该方法从Common Crawl中获取WARC文件链接，逐步提取包含日语文本的HTML页面，并从中分离出图像与文本配对信息。通过严格的去重机制，包括图像URL去重、感知哈希值计算与布隆过滤器去重，确保了数据唯一性。后续通过图像尺寸筛选、NSFW内容过滤以及基于SigLIP2模型的CLIP相似度评分，有效提升了数据质量与语义对齐精度。

使用方法

针对视觉语言模型的训练需求，WAON数据集提供了标准化的数据加载与预处理方案。研究者可通过官方发布的代码库快速配置数据管道，依次执行图像下载、特征提取与质量过滤流程。数据集支持直接用于模型微调，特别适用于提升日语环境下的图文匹配与跨模态检索性能。通过集成HuggingFace平台，用户可便捷获取经过预处理的高质量数据子集，加速模型开发与实验迭代。

背景与挑战

背景概述

随着多模态人工智能技术的快速发展，构建高质量视觉语言模型已成为跨模态理解的核心任务。WAON数据集由日本研究团队于2025年发布，旨在解决日语视觉语言数据稀缺的瓶颈问题。该数据集通过系统化采集Common Crawl网络数据，构建了包含1.55亿图像文本对的大规模语料库，其创新性体现在专门针对日本文化场景设计的评估基准WAON-Bench。该成果显著提升了日语多模态模型的性能，在多项文化理解任务中达到最优水平，为东亚语言视觉语言研究提供了重要基础设施。

当前挑战

在视觉语言模型领域，日语多模态数据构建面临双重挑战：其一是领域问题层面，现有模型对日本特有文化元素的理解存在显著偏差，传统数据集难以覆盖茶道、俳句等文化场景的细微差异；其二是技术构建层面，需克服网络原始数据的噪声过滤难题，包括重复图像的精确定位、不当内容的有效筛除，以及跨模态语义对齐的质量控制。WAON通过多级过滤管道和感知哈希去重技术，实现了数据质量与规模的平衡突破。

常用场景

经典使用场景

在视觉语言模型研究领域，WAON数据集作为日语图像-文本对的大规模高质量资源，常被用于跨模态表示学习的训练与评估。其典型应用场景包括对日语文化图像进行多模态对齐，通过SigLIP2等模型进行微调，显著提升模型在日语文化分类任务中的表现。该数据集通过严格的过滤流程确保数据质量，为日语视觉语言理解提供了可靠的基准支撑。

解决学术问题

WAON数据集有效解决了日语视觉语言模型训练中数据稀缺与质量参差的核心难题。通过构建包含1.55亿样本的高质量数据集，该资源显著提升了模型对日语文化特征的捕捉能力，并在WAON-Bench等专业评估基准上实现了突破性性能。这一成果不仅填补了日语多模态研究的空白，更为跨语言视觉语言模型的公平比较提供了标准化基础。

实际应用

该数据集的实际价值体现在日语文化内容的智能处理场景中。基于WAON训练的模型可应用于日本传统艺术数字化、动漫内容理解、社交媒体图像分析等具体领域。其高质量标注特性使得模型能准确识别茶道、浮世绘等文化元素，为文化传承、内容审核等实际需求提供了技术保障，推动了多模态AI在日语环境下的落地应用。

数据集最近研究