TofuEval MeetingBank

Name: TofuEval MeetingBank
Creator: 石溪大学, 亚马逊, 韩国高等科学技术院
Published: 2025-02-12 23:46:50
License: 暂无描述

arXiv2025-02-12 更新2025-02-14 收录

下载链接：

https://github.com/amazon-science/madisse

下载链接

链接失效反馈

官方服务：

资源简介：

TofuEval MeetingBank数据集是由亚马逊等机构提供的一个会议记录摘要数据集，该数据集经过扩展，增加了关于模糊性的注释。数据集用于评估自动生成的摘要是否忠实于源文档，包含多个代理根据初始立场进行辩论的信息，以及最终由裁决者根据辩论结果给出的摘要忠实性标签。该数据集旨在帮助研究者解决自动摘要评估中的模糊性问题，提高评估的准确性和可靠性。

TofuEval MeetingBank dataset is a meeting transcript summarization dataset provided by institutions including Amazon. This dataset has been expanded with annotations regarding ambiguity. It is designed to evaluate whether automatically generated summaries are faithful to their source documents, containing records of debates conducted by multiple agents based on their initial positions, as well as summary faithfulness labels ultimately assigned by adjudicators according to the outcomes of these debates. This dataset aims to assist researchers in resolving the ambiguity issue in automatic summarization evaluation, thereby improving the accuracy and reliability of such evaluation work.

提供机构：

石溪大学, 亚马逊, 韩国高等科学技术院

创建时间：

2025-02-12

搜集汇总

数据集介绍

构建方式

TofuEval MeetingBank数据集的构建采用了基于多智能体辩论的方法，该方法首先为多个基于大型语言模型（LLM）的评估者分配初始立场，并强制它们提出理由来证明所强加的信念，从而进行多轮辩论以达到共识。这种均匀分布的初始分配导致了更多的立场多样性，从而产生了更有意义的辩论，并最终发现了更多的错误。此外，通过对最近的忠实度评估数据集的分析，我们发现自然情况下，摘要并不总是要么忠实于源文档，要么不忠实。因此，我们引入了一个新的维度，即模糊性，以及一个详细的分类法来识别这些特殊情况。实验表明，我们的方法可以帮助识别模糊性，并且在非模糊摘要上表现出更强的性能。

特点

TofuEval MeetingBank数据集的特点在于其多智能体辩论框架，该框架通过引入初始立场和辩论过程来提高摘要忠实度的评估质量。此外，该数据集还引入了一个新的评估维度——模糊性，并提供了一个详细的分类法来识别模糊摘要。这使得评估者能够在评估忠实度之前先识别和过滤掉模糊摘要，从而提高了评估的准确性和可重复性。

使用方法

使用TofuEval MeetingBank数据集的方法包括初始化、辩论和裁决三个主要阶段。在初始化阶段，评估者被分配初始立场。在辩论阶段，评估者进行多轮辩论，以说服对方接受自己的观点。在裁决阶段，裁决者根据辩论中的论点进行最终裁决。此外，该数据集还可以用于模糊性检测，以识别和过滤掉模糊摘要。

背景与挑战

背景概述

在自动文摘评估领域，TofuEval MeetingBank 数据集的提出为评估文摘的忠实度提供了新的视角和方法。该数据集由 Koupaee 等人在 2025 年创建，主要研究人员来自 Stony Brook University 和 Amazon。该数据集的核心研究问题是如何准确评估自动生成的文摘与源文档的忠实度。传统的评估方法如基于 n-gram 的指标和表示方法存在与人类判断相关性弱的问题，而 LLM 生成的文摘的高流畅性也使得评估更加困难。TofuEval MeetingBank 数据集通过引入多轮辩论和多代理评估框架，旨在解决这些问题，并提高评估的准确性和可解释性。该数据集的创建对自动文摘评估领域产生了重要影响，推动了相关研究的进展。

当前挑战

TofuEval MeetingBank 数据集面临着多个挑战。首先，如何有效地识别文摘中的错误是一个关键问题。由于 LLM 生成的文摘具有高度流畅性，传统的评估方法往往无法准确识别其中的错误。其次，文摘评估的另一个挑战是处理文摘的歧义性。传统的评估方法通常假设文摘要么忠实于源文档，要么不忠实，但实际情况可能并非如此。TofuEval MeetingBank 数据集通过引入歧义性维度，旨在解决这一问题。此外，构建大规模的、高质量的文摘评估数据集也是一个挑战，需要大量的专业知识和资源。

常用场景

经典使用场景

TofuEval MeetingBank数据集主要用于评估摘要的忠实度。该数据集通过引入多智能体辩论框架，使得评估摘要忠实度的工作更加准确和高效。评估者被赋予初始立场，并在多轮辩论中通过提供理由来支持或反驳其他评估者的观点，最终达成一致意见。这种辩论过程有助于识别更多错误，并提供更深入的语义理解。同时，该数据集还引入了模糊性这一新的评估维度，以便更好地处理摘要可能存在的多种正确解释的情况。

实际应用

TofuEval MeetingBank数据集在实际应用中具有重要的价值。它可以帮助评估者更好地理解摘要的忠实度，并提供更准确的评估结果。此外，通过引入模糊性评估维度，该数据集还可以帮助评估者识别和解决摘要中可能存在的多种正确解释的情况，从而提高评估的准确性和可靠性。

衍生相关工作

TofuEval MeetingBank数据集的提出和研究成果对于摘要忠实度评估领域产生了深远的影响。它不仅为后续的研究提供了重要的数据基础，还为评估方法的改进和评估框架的构建提供了新的思路。此外，该数据集还促进了多智能体辩论技术在其他领域的应用，如对话系统、问答系统等。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集