EVWSD-ITA-eval

Name: EVWSD-ITA-eval
Creator: SWAP Research Group@UNIBA
Published: 2025-11-25 19:09:28
License: 暂无描述

Hugging Face2025-11-25 更新2025-11-26 收录

下载链接：

https://huggingface.co/datasets/swap-uniba/EVWSD-ITA-eval

下载链接

链接失效反馈

官方服务：

资源简介：

EVWSD-ITA EVALITA 2026任务的评价数据集，包含手动编写的查询和对应的候选图像列表，用于图像消歧任务。经过手动检查以确保数据质量，并确保每个实例有足够的候选图像进行选择。测试集共有222个实例。

提供机构：

SWAP Research Group@UNIBA

创建时间：

2025-11-25

原始信息汇总

EVWSD-ITA 数据集概述

数据集基本信息

用途：EVWSD-ITA EVALITA 2026 任务的评估集
实例数量：222 个实例
数据格式：每个实例包含查询和候选图像列表

数据内容描述

查询特征：手动编写，遵循主站点概述的程序
图像候选：图像路径指向 images 目录，图像以 zip 文件形式提供
质量保证：查询和图像经过人工检查以提高数据鲁棒性

数据构建方法

候选扩充：当同义词集和同义词词元的数量总和少于 9 时，从测试集的其他实例中采样额外候选图像，使每个实例总共有 10 个可能图像
采样标准：利用视觉嵌入的余弦相似度选择具有挑战性的图像进行消歧

基线信息

基线模型：使用多语言 CLIP 模型（sentence-transformers/clip-ViT-B-32-multilingual-v1）发布基线结果

更新记录

质量改进：针对复合词词元查询质量警告进行更新，请参考数据集最新版本

提交指南

提交限制：每个参与者最多允许三次提交
提交内容：系统输出文件（.csv 或 .json 格式）、系统原理简要描述和团队名称
输出格式：
- 预测正确图像：提供候选列表中的整数索引或正确图像名称字符串
- 候选图像排名：提供按分数降序排列的整数索引列表或图像名称字符串列表

数据示例

json { "query": "patologia calcolo organo", "candidates": [ "1133.jpg", "850.jpg", "743.jpg", "1266.jpg", "1367.jpg", "948.jpg", "549.jpg", "695.jpg", "1504.jpg", "1148.jpg" ] }

搜集汇总

数据集介绍

构建方式

在视觉词汇消歧领域，EVWSD-ITA-eval数据集的构建体现了严谨的工程流程。其查询语句遵循主站点规定的程序手动编写，候选图像列表通过图像路径与图像目录关联。为确保数据鲁棒性，所有查询和图像均经过人工校验。针对同义词集数量不足的情况，采用余弦相似度计算视觉嵌入向量，从测试集其他实例中筛选具有挑战性的图像补充至每实例十幅候选图像，最终形成包含222个实例的测试集。

特点

该数据集显著特点在于其多层次的质量控制机制。通过人工校验环节确保查询语义与图像关联的准确性，而基于视觉嵌入向量的候选图像扩充策略，则有效提升了消歧任务的判别难度。数据集特别关注复合词查询的语义完整性，通过版本更新优化了词序排列问题。每个实例均包含结构化查询与候选图像路径，为多模态语义理解研究提供标准化评估基准。

使用方法

研究者可通过加载数据集中的查询字段与对应候选图像路径开展实验。系统输出需严格遵循测试集原始顺序，支持单图像预测与全序列排序两种提交格式：预测任务需返回候选列表索引或图像名称字符串，排序任务则需提供按置信度降序排列的索引列表或文件名序列。每支参赛团队限提交三次结果，并需同步提交系统原理说明与团队标识信息。

背景与挑战

背景概述

视觉词义消歧作为计算语言学与计算机视觉交叉领域的核心课题，旨在通过多模态信息解析特定语境中词汇的语义内涵。EVWSD-ITA-eval数据集由EVALITA 2026竞赛组委会构建，专为意大利语视觉词义消歧任务设计。该数据集通过人工校验的查询语句与候选图像集合，构建了包含222个实例的评估基准，其设计理念源于对多模态语义理解模型泛化能力的深入探索，为跨语言视觉语言研究提供了标准化评估框架。

当前挑战

在视觉词义消歧领域，模型需克服语义粒度差异与跨模态对齐的固有难题，尤其当目标词汇存在多义性时，精准匹配文本描述与视觉表征成为关键瓶颈。数据集构建过程中，团队面临候选图像稀缺性与语义相似度平衡的双重挑战：针对同义词集样本不足的情况，采用视觉嵌入余弦相似度采样策略扩充候选集；同时通过人工复核复合词查询结构，有效规避了非语义性词序混淆对模型评估的干扰。

常用场景

经典使用场景

在计算语言学与视觉语义理解领域，EVWSD-ITA-eval数据集为多模态词义消歧任务提供了标准化的评估框架。该数据集通过精心设计的查询语句与候选图像集合，模拟了人类在跨模态语境下对歧义词汇的理解过程，尤其适用于评估模型在意大利语环境中对复杂语义关系的解析能力。研究者可借助该数据集系统性地测试模型从文本到图像的语义映射精度，推动多模态表示学习的发展。

衍生相关工作

基于该数据集衍生的经典工作主要集中在多模态表示学习的创新方法上。例如采用多语言CLIP模型构建的基线系统，为后续研究提供了重要的性能参照。许多研究通过融合视觉-语言预训练技术与对抗学习策略，显著提升了模型对意大利语复合词汇的消歧能力。这些成果不仅推动了EVALITA评测任务的发展，更促进了跨语言多模态理解技术在学术界的持续演进。

数据集最近研究