WAON
收藏arXiv2025-10-25 更新2025-10-29 收录
下载链接:
https://github.com/pemistahl/lingua-py
下载链接
链接失效反馈官方服务:
资源简介:
WAON是一个大规模、高质量的日语文本-图像对数据集,包含约1.55亿个示例,从Common Crawl收集。数据集构建流程采用了各种技术,包括过滤和去重,以提高数据质量。WAON旨在有效提升模型在日语文本和文化内容上的性能。数据集构建过程涉及从WARC文件中提取日文HTML文档,进行语言识别,提取图像和文本对,去重,下载图像,进行图像质量过滤,NSFW过滤,基于pHash的去重,以及基于SigLIP得分的过滤。数据集的构建旨在提高模型在日文文化内容上的性能,并为视觉语言模型的发展提供支持。
提供机构:
京都大学,国立情报学研究所LLMC,国立情报学研究所,早稻田大学,东京理科大学
创建时间:
2025-10-25
原始信息汇总
Lingua 语言检测库数据集概述
数据集基本信息
- 项目名称: Lingua
- 项目类型: 语言检测库
- 编程语言: Python(基于Rust实现)
- 版本: v2.1.1
- 许可证: Apache 2.0
- Python版本要求: >= 3.10
核心功能
- 检测文本的编写语言
- 支持单字、词组和句子的语言检测
- 结合规则引擎和统计方法(Naive Bayes)
- 完全离线使用,无需外部API或服务
技术特点
- 使用1到5字符的n-gram模型
- 集成规则引擎进行初步语言筛选
- 支持单线程和多线程模式
- 线程安全设计
支持语言
共支持75种语言,按字母顺序排列:
A
- 南非荷兰语、阿尔巴尼亚语、阿拉伯语、亚美尼亚语、阿塞拜疆语
B
- 巴斯克语、白俄罗斯语、孟加拉语、挪威博克马尔语、波斯尼亚语、保加利亚语
C
- 加泰罗尼亚语、中文、克罗地亚语、捷克语
D
- 丹麦语、荷兰语
E
- 英语、世界语、爱沙尼亚语
F
- 芬兰语、法语
G
- 干达语、格鲁吉亚语、德语、希腊语、古吉拉特语
H
- 希伯来语、印地语、匈牙利语
I
- 冰岛语、印度尼西亚语、爱尔兰语、意大利语
J
- 日语
K
- 哈萨克语、韩语
L
- 拉丁语、拉脱维亚语、立陶宛语
M
- 马其顿语、马来语、毛利语、马拉地语、蒙古语
N
- 新挪威语
P
- 波斯语、波兰语、葡萄牙语、旁遮普语
R
- 罗马尼亚语、俄语
S
- 塞尔维亚语、绍纳语、斯洛伐克语、斯洛文尼亚语、索马里语、索托语、西班牙语、斯瓦希里语、瑞典语
T
- 他加禄语、泰米尔语、泰卢固语、泰语、聪加语、茨瓦纳语、土耳其语
U
- 乌克兰语、乌尔都语
V
- 越南语
W
- 威尔士语
X
- 科萨语
Y
- 约鲁巴语
Z
- 祖鲁语
性能表现
检测精度
- 基于Wortschatz语料库进行训练和测试
- 测试数据包含单字、词组和句子
- 与其他检测器(Langdetect、Langid、Simplemma、CLD 2、CLD 3)进行比较
检测速度
在iMac 3.6 Ghz 8-Core Intel Core i9上的表现:
| 检测器 | 时间 |
|---|---|
| Lingua(低精度模式,多线程) | 3.00秒 |
| Lingua(高精度模式,多线程) | 7.97秒 |
| CLD 2 | 8.65秒 |
| CLD 3 | 16.77秒 |
| Lingua(低精度模式,单线程) | 20.46秒 |
| Lingua(高精度模式,单线程) | 51.88秒 |
安装方式
bash pip install lingua-language-detector
使用方法
python from lingua import Language, LanguageDetectorBuilder
languages = [Language.ENGLISH, Language.FRENCH, Language.GERMAN, Language.SPANISH] detector = LanguageDetectorBuilder.from_languages(*languages).build() language = detector.detect_language_of("languages are awesome")
内存占用
- 内存消耗小于1GB
- 语言模型共享,多实例不重复加载
测试报告
可通过脚本生成详细的精度测试报告: bash poetry run python3 scripts/accuracy_reporter.py
测试报告包含每种语言的检测精度统计和错误分类详情。
搜集汇总
数据集介绍

构建方式
在视觉语言模型研究领域,数据质量对模型性能具有决定性影响。WAON数据集采用多阶段流水线构建方法,从Common Crawl的六个最新快照中提取原始数据,通过语言识别技术筛选日语HTML文档,并运用Trafilatura工具进行文本提取。构建过程包含图像URL与文本描述的配对提取、基于布隆过滤器的重复数据删除、图像质量筛选(包括分辨率与宽高比检测)、NSFW内容过滤以及感知哈希去重等关键步骤,最终通过SigLIP相似度评分保留语义对齐度高于0.1的高质量图像文本对,形成包含1.55亿样本的精选数据集。
特点
作为专攻日语文化理解的大规模视觉语言数据集,WAON展现出显著的数据特性。其数据规模达到1.55亿图像文本对,覆盖日本文化相关视觉概念,通过严格的去重流程确保数据多样性,有效避免冗余内容。数据集采用先进的SigLIP多语言模型进行语义对齐筛选,保证图像与文本描述的高度相关性。相较于现有日语数据集,WAON基于最新网络快照构建,解决了链接失效问题,且专门针对日本文化场景进行优化,在保持数据纯净度的同时增强了文化代表性。
使用方法
该数据集主要应用于视觉语言模型的预训练与微调过程,研究者可通过下载公开数据包直接接入训练流程。在实际使用中,建议采用SigLIP损失函数与AdamW优化器,设置批量大小为8192进行分布式训练。实验表明,在WAON上微调多语言基础模型能显著提升日语文化理解能力,特别是在WAON-Bench和Recruit等日本文化基准测试中表现卓越。数据集支持零样本图像分类与图文检索任务评估,用户可通过计算top-1准确率与召回率等指标量化模型性能,为日语多模态研究提供可靠基准。
背景与挑战
背景概述
随着视觉语言模型在多模态人工智能领域的快速发展,大规模高质量的图像-文本配对数据集成为提升模型性能的关键要素。2025年,由京都大学、国立信息学研究所LLMC等机构联合发布的WAON数据集,针对日语语言文化理解的研究需求,从Common Crawl网络爬虫中构建了包含1.55亿样本的日文图像-文本对资源。该数据集通过多层过滤与去重技术优化数据质量,旨在解决非英语语言数据稀缺的核心问题,为跨文化视觉语言理解研究提供了重要基础。
当前挑战
WAON数据集面临双重挑战:在领域问题层面,需克服日语文化图像与文本语义对齐的复杂性,例如传统器物与地域性场景的精准描述;在构建过程中,需应对网络原始数据的噪声干扰,包括重复广告图像、低质量网页内容的多轮过滤,以及基于多语言SigLIP模型的语义对齐阈值优化。此外,数据规模受限于日语网页在互联网中的天然不平衡分布,需通过跨时间快照的增量采集弥补资源缺口。
常用场景
经典使用场景
在视觉语言模型研究领域,WAON数据集最经典的应用场景是作为日本语言文化理解任务的预训练资源。该数据集通过精心设计的过滤和去重流程,构建了1.55亿个高质量的日文图像-文本对,为开发具有日本文化认知能力的多模态模型提供了重要支撑。研究人员利用该数据集对SigLIP2等多语言模型进行微调,显著提升了模型在日本文化图像分类任务上的表现。
解决学术问题
WAON数据集有效解决了日本语言文化数据稀缺的学术难题。传统多语言视觉语言模型主要依赖英语和中文数据,导致对日本文化概念的理解存在明显局限。该数据集通过直接从Common Crawl提取原生日文内容,避免了翻译引入的噪声和文化偏差问题。其实验结果表明,基于WAON训练的模型在WAON-Bench和Recruit等日本文化基准测试中达到了最优性能,填补了非英语文化理解研究的空白。
衍生相关工作
WAON数据集推动了多项相关研究工作的开展。其构建的WAON-Bench评估基准成为日本文化图像分类的新标准,弥补了现有数据集在类别平衡和标注质量上的不足。基于该数据集训练的SigLIP2模型在多项基准测试中表现优异,为后续日本多模态模型研究提供了重要基线。数据集构建过程中采用的先进过滤技术和去重方法,也为其他语言的大规模数据收集工作提供了可复用的技术路线。
以上内容由遇见数据集搜集并总结生成



