IKEA-Dataset

github2023-04-20 更新2024-05-31 收录

下载链接：

https://github.com/sampalomad/IKEA-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

IKEA-Dataset是一个用于多语言-多模态机器翻译的数据集。它包含了2017年IKEA和Under Armour网站上所有产品的文本和视觉数据。每个产品样本的文本数据是产品描述，视觉数据是产品图像。描述以双语对形式存在：英语-法语或英语-德语。

IKEA-Dataset 是一个专为多语言-多模态机器翻译（Multilingual-Multimodal Machine Translation）设计的数据集。该数据集囊括了2017年IKEA与Under Armour网站上所有产品的文本及视觉数据。每个产品样本的文本数据为产品描述，而视觉数据则为产品图像。产品描述以双语对形式呈现，具体为英语-法语或英语-德语。

创建时间：

2018-05-04

原始信息汇总

IKEA-Dataset 概述

数据集简介

IKEA-Dataset 是一个用于多语言多模态机器翻译的数据集。该数据集包含2017年IKEA和Under Armour网站上所有产品的文本和视觉数据。每个产品样本包括文本描述和产品图像，文本描述为英法或英德双语对。

数据预处理

数据集提供了原始数据以及两种不同处理步骤后的数据版本。IKEA/data.en.*/data.norm.tok.lc 包含标准化、分词、转换为小写的数据，而 IKEA/data.en.*/data.norm.tok.lc.bpe 在此基础上还进行了字节对编码。

数据统计

数据集的统计信息包括语言对、语言、令牌数、样本长度等，具体如下：

语言对	语言	令牌数	最小样本长度	最大样本长度	平均样本长度	标准差样本长度	词汇量
English-German	English	256355	6	343	71.40807799	46.33073895	6601
	German	216892	6	324	60.41559889	39.14467817	10468
English-French	English	239966	6	334	72.25715146	47.24279926	6442
	French	275251	6	469	82.88196326	54.72162651	7575

数据格式

数据集的文件结构如下：

IKEA/: 包含从IKEA和UNDERAMOUR爬取和处理的数据。
IKEA/data.en.fr: 英法数据。
IKEA/data.en.de: 英德数据。
IKEA/data.en.*/data.raw: 原始未处理数据，压缩为.gz格式。
IKEA/data.en.*/data.norm.tok.lc: 标准化、分词、小写转换后的数据。
IKEA/data.en.*/data.norm.tok.lc.bpe: 进一步进行字节对编码的数据。
IKEA/data.en.*/data.image.bpe: 训练、测试、验证集的图像矩阵。
IKEA/image/image.en.*: 训练、验证和测试的压缩图像，格式为jpg。

数据集用途

IKEA-Dataset 可用于纯文本机器翻译和多模态机器翻译项目。

搜集汇总

数据集介绍

构建方式

IKEA-Dataset的构建基于2017年IKEA和Under Armour网站上的产品数据，涵盖了多语言多模态机器翻译的需求。数据集中的每个样本包含产品的文本描述和对应的图像数据，文本描述以双语对形式呈现，包括英语-法语和英语-德语。数据的预处理步骤包括标准化、分词、小写转换以及字节对编码，确保数据的统一性和可用性。

使用方法

IKEA-Dataset适用于文本机器翻译和多模态机器翻译的研究。用户可通过GitHub克隆仓库获取数据集，数据以文件夹形式组织，包含原始数据、预处理数据以及图像数据。具体使用时，可根据需求选择未处理数据或经过标准化、分词、字节对编码等处理后的数据。图像数据以矩阵形式存储，便于与文本数据进行联合建模。

背景与挑战

背景概述

IKEA-Dataset是由Mingyang Zhou等研究人员于2018年提出的一个多语言多模态机器翻译数据集，旨在通过结合文本和视觉信息来提升机器翻译的准确性。该数据集包含了2017年IKEA和Under Armour网站上的所有产品的文本描述和图像数据，文本描述以双语对形式呈现，包括英语-法语和英语-德语。该数据集的发布为多模态机器翻译领域提供了重要的研究资源，推动了视觉注意力机制在翻译任务中的应用。其研究成果发表在2018年的EMNLP会议上，对多模态自然语言处理领域产生了深远影响。

当前挑战

IKEA-Dataset在解决多模态机器翻译问题时面临的主要挑战包括：1) 文本与视觉信息的对齐问题，由于产品描述可能包含无法通过图像展示的信息（如洗涤说明），模型需要有效融合多模态信息；2) 数据样本的多样性，不同语言的描述长度和表达方式存在差异，增加了模型训练的复杂性。在构建过程中，研究人员还需处理大规模数据的预处理问题，如文本的归一化、分词、小写转换以及字节对编码等，这些步骤对数据质量和模型性能具有重要影响。此外，图像数据的压缩和存储也带来了技术挑战，如何在保证数据完整性的同时提高处理效率是构建过程中的关键问题。

常用场景

经典使用场景

IKEA-Dataset 在自然语言处理领域，尤其是多模态机器翻译研究中，展现了其独特的价值。该数据集结合了文本和视觉数据，为研究者提供了一个双语对（英语-法语或英语-德语）的产品描述及其对应图像。这种多模态数据的结合，使得研究者能够在翻译过程中同时考虑文本和视觉信息，从而提升翻译的准确性和自然度。

解决学术问题

IKEA-Dataset 解决了多模态机器翻译中的关键问题，即如何有效地融合视觉和文本信息以提升翻译质量。通过提供丰富的双语对和对应的产品图像，该数据集为研究者提供了一个实验平台，用于开发和验证视觉注意力机制等先进模型。这些模型能够更好地理解上下文信息，从而生成更准确的翻译结果。

实际应用

在实际应用中，IKEA-Dataset 可以用于开发智能翻译系统，尤其是在电子商务领域。通过结合产品描述和图像，系统能够更准确地理解产品特性，从而为用户提供更精准的多语言产品信息。这不仅提升了用户体验，还促进了跨语言电子商务的发展。

数据集最近研究