Evalita-LLM

Name: Evalita-LLM
Creator: Fondazione Bruno Kessler, University of Torino, iGenius
Published: 2025-02-04 20:58:19
License: 暂无描述

arXiv2025-02-04 更新2025-02-11 收录

下载链接：

https://huggingface.co/datasets/evalitahf

下载链接

链接失效反馈

官方服务：

资源简介：

Evalita-LLM是一个评估大型语言模型在意大利任务上的新基准，由Fondazione Bruno Kessler、University of Torino和iGenius创建。该数据集包含了70个涵盖各种语言现象的意大利原生数据集，用于评估大型语言模型在处理意大利语任务时的性能。数据集基于Evalita项目，覆盖新闻、社交媒体、科学文档和公共行政等领域的文本，包含了词义消歧、语义推理、文本分类、问答、信息抽取和文本生成等任务类型。

Evalita-LLM is a novel benchmark for evaluating large language models (LLMs) on Italian-language tasks, developed by Fondazione Bruno Kessler, the University of Torino, and iGenius. This dataset includes 70 native Italian datasets covering a broad spectrum of linguistic phenomena, aimed at assessing the performance of large language models when processing Italian-language tasks. Grounded in the Evalita project, it encompasses texts from domains such as news, social media, scientific documents, and public administration, and covers task types including word sense disambiguation, semantic reasoning, text classification, question answering, information extraction, and text generation.

提供机构：

Fondazione Bruno Kessler, University of Torino, iGenius

创建时间：

2025-02-04

搜集汇总

数据集介绍

构建方式

Evalita-LLM 数据集的构建主要依托于意大利计算语言协会（AILC）下属的 Evalita 计划在过去十五年中所开发的各类数据集。该计划涵盖了多种语言现象，并通过 Evalita4ELG 项目将这些数据集以开放许可证的形式发布在 ELG 平台上。Evalita-LLM 使用了 lm-evaluation-harness 库，通过三个步骤来开发任务：数据集选择、任务定义和模型评估。首先，从 ELG 目录中选择数据集并转换为 HF 格式上传；其次，定义任务，包括数据预处理、设计 LLM 提示、确定学习方式（zero-shot 或 few-shot）、实现后处理脚本和定义评估指标；最后，通过在开发阶段使用一组意大利语模型对候选任务和提示进行验证，确保任务的有效性。

使用方法

Evalita-LLM 数据集的使用方法如下：1) 从 Hugging Face 平台下载所需的数据集和任务定义文件；2) 使用 lm-evaluation-harness 库加载任务和数据集；3) 选择合适的 LLM 模型进行评估，包括 zero-shot 和 few-shot 两种模式；4) 根据任务定义的评估指标计算模型的性能；5) 分析不同模型在不同任务上的表现，以及不同提示对模型性能的影响。

背景与挑战

背景概述

Evalita-LLM 是一项新的基准测试，旨在评估意大利语任务上的大型语言模型（LLM）。该数据集的独特和创新之处在于：（i）所有任务都是意大利语原生的，避免了从意大利语翻译的问题和潜在的文化偏见；（ii）除了已经建立的多项选择题任务外，基准测试还包括生成任务，使与 LLM 的交互更加自然；（iii）所有任务都针对多个提示进行评估，从而减轻了模型对特定提示的敏感性，并允许进行更公平和客观的评估。我们提出了一个迭代方法，其中候选任务和候选提示在开发阶段使用的 LLM 集上进行验证。我们报告了基准测试开发阶段的实验结果，并为几个最先进的 LLM 提供了性能统计数据。

当前挑战

Evalita-LLM 面临的挑战包括：（i）生成任务的挑战：虽然文本生成的提示是更自然的方式（即最类似于人类行为）与 LLM 交互，但当前评估 LLM 的实践仍然倾向于将任务视为多项选择，其中最佳选项是具有最高概率的选项，通常通过模型对特定选择的 logits 来估计。虽然这种方法简单且提供了一种清晰的评分机制，但它不能应用于所有任务（例如，一个好的总结不是最可能的句子序列），并且在许多情况下会产生人工的任务公式（例如，当命名实体识别被实现为选择句子中每个标记的实体类型时）。另一方面，生成任务遭受两个相互关联的问题：首先，当前的指标（例如 BLEU、ROUGE、BERTScore、COMET）仍然是人类能力从复杂输出中推断相关信息的不良近似；其次，很难提示模型以精确的格式输出其结果（例如，属性-值对），这可以解析以提取任务执行的结果。这两个问题，低质量的指标和糟糕的输出格式，使得实现尽可能多的生成任务变得具有挑战性。（ii）多个提示的挑战：多项选择和生成任务通常使用单个提示实现。然而，单个提示可能与一个模型配合良好，而与另一个模型配合得非常差，从而引发了关于单提示评估公平性的问题。此外，没有关于如何为不同任务设计单个提示的既定指南：例如，提示通常只是从不同的数据集中复制粘贴，而没有尝试理解不同的提示与特定任务的关系。（iii）数据集饱和的挑战：确定用于测试模型和用于预训练该模型的数据的污染程度是一个巨大的挑战。此外，通常不清楚模型是否在指令阶段使用了特定的提示。如果模型知道提示，我们可能会期望更好的性能，这会影响评估。更重要的是，数据饱和和提示饱和之间的关系尚未得到充分研究。

常用场景

经典使用场景

Evalita-LLM数据集主要应用于评估大型语言模型在意大利语任务上的性能。该数据集包含了多种类型的任务，如词义消歧、文本蕴涵、情感分析、仇恨言论检测、问答系统、实体识别、关系抽取和文本摘要等。这些任务涵盖了不同的语言现象和文本类型，如新闻、社交媒体、科学文档和公共行政文档。Evalita-LLM数据集不仅包括传统的多项选择题，还包含生成性任务，使得与大型语言模型的交互更加自然。此外，所有任务都针对多个提示进行了评估，以减轻模型对特定提示的敏感性，并实现更公平、客观的评估。

解决学术问题

Evalita-LLM数据集解决了在意大利语大型语言模型评估中存在的一些关键问题。首先，它避免了使用自动翻译的英语基准，从而避免了翻译质量和文化偏见的问题。其次，它包括了生成性任务，使模型能够以更自然的方式进行交互。最后，它采用了迭代方法，通过一组用于开发的LLM对候选任务和提示进行验证，从而确保了评估的公平性和客观性。

实际应用

Evalita-LLM数据集在实际应用中具有广泛的前景。它可以用于评估和比较不同的大型语言模型在意大利语任务上的性能，从而帮助研究人员和开发人员选择最适合特定应用的模型。此外，该数据集还可以用于开发新的意大利语NLP应用，如自动摘要、问答系统和文本分类等。

数据集最近研究