youssef101/artelingo

Name: youssef101/artelingo
Creator: youssef101
Published: 2023-09-11 08:21:07
License: 暂无描述

Hugging Face2023-09-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/youssef101/artelingo

下载链接

链接失效反馈

官方服务：

资源简介：

ArtELingo是一个旨在促进跨语言和文化多样性研究的基准和数据集。它扩展了ArtEmis数据集，增加了阿拉伯语和中文的注释，总共包含790,000条注释。该数据集的目标是鼓励多语言和文化意识的人工智能研究，通过包含多种语言的注释并考虑文化差异，旨在构建更符合人类情感的人工智能系统。数据集支持情感标签预测和情感图像描述生成任务，并包含三种语言（英语、阿拉伯语和中文）的注释。数据集的结构包括多个配置，每个配置有不同的数据集大小和分割。数据集的创建过程涉及从WikiArt收集图像，并通过Amazon Mechanical Turk进行注释。使用该数据集时需要考虑其社会影响和潜在的偏见。

提供机构：

youssef101

原始信息汇总

数据集概述

数据集名称

名称: ArtELingo
别名: 无

数据集描述

目的: 促进跨语言和文化的多样性研究，扩展ArtEmis数据集，增加阿拉伯语和中文的790,000个标注，以评估AI系统的“文化转移”性能。
特点: 包含80,000幅艺术作品，每幅作品至少有5个不同语言（英语、阿拉伯语、中文）的标注。

支持的任务和排行榜

任务1: 情感标签预测
任务2: 情感图像标注
排行榜: 在Eval.ai上有排行榜，且在ICCV23研讨会WECIA上举办挑战，设有现金奖励。

语言

支持的语言: 英语、阿拉伯语、中文

数据集结构

配置: 4种配置，包括artelingo、dev、wecia-emo和wecia-cap，分别用于不同的训练和测试需求。
数据字段:
- uid: 唯一标识符
- image: 艺术作品图像
- art_style: 艺术风格
- painting: 绘画名称
- emotion: 情感标签
- language: 标注语言
- text: 情感描述文本

数据集创建

来源数据: 使用wikiart数据集的艺术作品图像。
标注过程: 通过Amazon Mechanical Turk收集，仅允许母语者进行标注。

使用数据注意事项

社会影响: 使用时需注意情感、文化和艺术表达的敏感性，避免传播偏见或刻板印象。
潜在偏见: 数据集可能包含文化差异、标注者视角差异等导致的偏见，研究者应谨慎处理并适当解决。

附加信息

数据集管理员: Youssef Mohamed, Mohamed Abdelfattah, Shyma Alhuwaider, Feifan Li, Xiangliang Zhang, Kenneth Ward Church, Mohamed Elhoseiny
许可信息: 仅供非商业研究及教育用途使用，需遵守国际版权法。
引用信息: 见README文件中的引用格式。

搜集汇总

数据集介绍

构建方式

ArtELingo数据集是在ArtEmis基础上扩展而来，后者包含来自WikiArt的8万幅艺术作品及45万条情感标签与英文描述。为了促进跨语言与跨文化的人工智能研究，ArtELingo新增了79万条阿拉伯语和中文标注，使得每幅图像在每种语言中至少拥有五条情感描述。数据集通过Amazon Mechanical Turk平台收集，仅允许母语为相应语言的标注者参与，确保了语言与文化的真实性。标注过程严格过滤仇恨言论和刻板印象，最终形成包含训练、验证和测试分片的大规模多语言情感标注资源。

使用方法

用户可通过HuggingFace的datasets库便捷加载ArtELingo数据集，例如使用`load_dataset(path="youssef101/artelingo", name='artelingo')`命令即可获取完整数据。为避免下载庞大的训练集，可指定`splits=['val']`参数仅加载验证分片。数据集提供四种配置：完整版artelingo、仅包含测试与验证的dev版、以及面向情感预测和图像描述挑战的wecia-emo与wecia-cap版。每条数据包含唯一标识符、图像、艺术风格、画作名称、情感标签、语言及描述文本，便于研究者直接用于模型训练与评估。

背景与挑战

背景概述

ArtELingo数据集由阿卜杜拉国王科技大学（KAUST）的研究团队于2022年创建，核心成员包括Youssef Mohamed、Mohamed Abdelfattah、Shyma Alhuwaider等人。该数据集聚焦于跨语言与跨文化的情感理解，旨在推动人工智能系统在情感识别与描述中的文化迁移能力。其研究背景源于现有视觉情感数据集（如ArtEmis）仅覆盖英语语境，忽视了语言多样性对情感表达的影响。ArtELingo基于WikiArt中的80,000幅艺术作品，额外收集了阿拉伯语和中文的79万条情感标注，并涵盖西班牙语子集，构建了多语言情感描述基准。该数据集的影响力体现在其首次系统性地将文化差异纳入情感AI评估，为多语言情感计算、跨文化人机交互等领域提供了关键资源，并催生了ICCV 2023 WECIA研讨会上的相关挑战赛。

当前挑战

ArtELingo所解决的领域挑战在于：传统情感数据集（如ArtEmis）仅依赖单一语言（英语）描述，忽略了情感表达的文化特异性，导致AI模型在跨文化场景中产生偏差。构建过程中面临多重挑战：首先，标注数据需确保跨语言一致性，团队通过限制母语者参与（共招募6377名英语、656名阿拉伯语、745名中文标注员）并支付高于当地最低工资的报酬来保证标注质量；其次，数据集需过滤仇恨言论与刻板印象，但WikiArt本身存在地域覆盖不均（偏重西方艺术）的问题，导致文化代表性不足；此外，多语言情感标注的语义对齐（如同一幅画在不同语言中可能引发不同情感）增加了数据标准化难度。这些挑战凸显了构建文化包容性AI资源的复杂性。

常用场景

经典使用场景

ArtELingo数据集作为跨语言情感理解与多模态情感生成领域的标杆性资源，其经典使用场景聚焦于情感标签预测与情感化图像描述两大核心任务。研究者依托该数据集，可针对同一幅艺术作品，训练模型分别从英语、阿拉伯语和中文三种语言视角预测其诱发的情感类别，或生成与特定情感语境相符的文本描述。这种多语言、多文化的情感标注体系，使得模型能够在不同语言背景下捕捉情感表达的细微差异，从而推动人工智能系统从单一文化视角向多元文化共融的范式转变。

解决学术问题

该数据集着力破解人工智能研究中长期存在的文化单一性问题，即多数情感计算模型仅基于英语数据训练，导致其在不同文化语境下表现失衡。ArtELingo通过提供大规模、跨语言、跨文化的情感标注，使研究者能够系统评估和改善模型的情感迁移能力。其学术意义在于，首次为情感理解领域的文化泛化研究提供了标准化评测基准，推动学界关注情感表达中的文化特异性，进而催生出更富包容性与鲁棒性的情感智能模型，深刻影响了多模态学习与跨文化AI的理论建构。

实际应用

在实际应用层面，ArtELingo所承载的跨文化情感理解能力可赋能诸多场景。例如，在全球化社交媒体分析中，企业可借助该数据集训练的情感模型，精准洞察不同地区用户对艺术内容的情感反馈，从而优化跨文化营销策略。此外，该数据集还能助力多语言智能客服系统理解用户情绪，提升交互体验；在数字博物馆与艺术教育领域，模型可依据观众的文化背景生成个性化的情感化导览解说，促进艺术欣赏的跨文化共鸣。这些应用均彰显了数据集在弥合文化鸿沟、实现人性化AI交互方面的实际价值。

数据集最近研究