OpenMEVA

Name: OpenMEVA
Creator: 清华大学
Published: 2021-05-19 12:45:07
License: 暂无描述

arXiv2021-05-19 更新2024-06-21 收录

下载链接：

https://github.com/thu-coai/OpenMEVA

下载链接

链接失效反馈

官方服务：

资源简介：

OpenMEVA是由清华大学的研究团队开发的一个用于评估开放式故事生成度量的基准数据集。该数据集包含2000条经过人工标注的故事数据，这些数据来源于两个广泛使用的故事语料库：ROCStories和WritingPrompts。OpenMEVA旨在通过提供全面的测试套件来评估度量的能力，包括与人类判断的相关性、对不同模型输出和数据集的泛化能力、判断故事连贯性的能力以及对扰动的鲁棒性。数据集的创建过程涉及手动标注和自动构造测试示例，以确保数据的质量和多样性。OpenMEVA的应用领域主要集中在自然语言生成（NLG）模型的评估和改进，特别是在开放式故事生成任务中，旨在解决现有自动度量与人类评估之间相关性差的问题。

OpenMEVA is a benchmark dataset developed by the research team at Tsinghua University for evaluating open-ended story generation metrics. This dataset contains 2000 manually annotated story samples sourced from two widely adopted story corpora: ROCStories and WritingPrompts. OpenMEVA aims to evaluate the performance of metrics by providing a comprehensive test suite, covering correlations with human judgments, generalization ability across different model outputs and datasets, capability of assessing story coherence, and robustness against perturbations. The construction of this dataset involves manual annotation and automatic test example generation to ensure data quality and diversity. The application scenarios of OpenMEVA are mainly focused on the evaluation and improvement of natural language generation (NLG) models, particularly in the open-ended story generation task, aiming to address the issue of poor correlation between existing automatic metrics and human evaluations.

提供机构：

清华大学

创建时间：

2021-05-19

搜集汇总

数据集介绍

构建方式

在开放域故事生成领域，评估指标的标准化测试平台长期缺失，OpenMEVA的构建旨在填补这一空白。该数据集通过两种互补方式构建：其一，收集人工标注故事集（MANS），基于ROCStories和WritingPrompts两大故事语料库，利用多种生成模型（如Seq2Seq、GPT-2等）产生故事样本，并通过亚马逊众包平台进行人工质量标注，采用五点李克特量表及基于错误类型的扣分策略确保标注一致性；其二，构建自动生成故事集（AUTOS），通过对人工撰写故事进行可控扰动，针对词汇重复、语义重复、角色行为、常识一致性等八个维度生成测试用例，每个用例聚焦单一评估能力，从而支持对指标行为的细粒度分析。

使用方法

使用OpenMEVA进行指标评估时，研究者可依托其开源工具包实现多种自动指标的集成与对比。对于相关性评估，需计算指标分数与MANS中人工标注分数的皮尔逊相关系数；泛化性测试则通过在不同模型输出或跨数据集场景下验证指标性能；连贯性判别能力通过AUTOS中的区分测试进行，要求指标有效区分扰动生成的不连贯样本与原始连贯样本；鲁棒性评估则利用不变性测试，检验指标对同义词替换、拼写错误等轻微扰动的敏感性。该框架支持研究者快速构建自定义测试用例，从而推动新一代故事生成评估指标的开发与优化。

背景与挑战

背景概述

在自然语言生成领域，开放端故事生成作为一项极具挑战性的任务，其评估长期依赖于人工标注，自动化度量标准的缺失严重制约了模型的发展。为应对这一困境，清华大学CoAI团队联合网易伏羲实验室等机构于2021年推出了OpenMEVA基准数据集。该数据集旨在系统评估开放端故事生成度量的综合能力，其核心研究问题聚焦于解决现有自动度量与人类评价相关性弱、缺乏标准化评估框架的痛点。通过整合人工标注故事与自动构建测试用例，OpenMEVA为度量工具在相关性、泛化性、连贯性判断及鲁棒性等多维能力的检验提供了全面测试套件，显著推动了故事生成评估方法的标准化与科学化进程。

当前挑战

OpenMEVA所应对的核心领域挑战在于开放端故事生成的质量评估难题。现有自动度量普遍存在与人类判断相关性低、难以捕捉篇章级不连贯、缺乏因果时序等推理知识的问题。在数据集构建过程中，研究团队面临双重挑战：其一，在人工标注环节，需克服数据偏差与标注偏差，通过设计精细的质量控制机制（如点扣除策略与标注者一致性校验）确保评估信度；其二，在自动构建测试集时，需设计覆盖词汇、句法、篇章多层次的语言扰动方法，并平衡语法正确性与逻辑破坏性，以构建能够精准检验度量工具特定能力的孤立测试用例。

常用场景

经典使用场景

在开放域故事生成领域，评估自动生成文本的质量一直是一项核心挑战。OpenMEVA数据集通过提供一套全面的测试套件，成为评估故事生成模型输出质量的基准工具。它整合了人工标注的故事和自动构建的测试样例，支持对自动评估指标进行多维度能力测试，包括与人类判断的相关性、对不同模型输出和数据集的泛化能力、故事连贯性判断能力以及对抗扰动的鲁棒性。这使得研究人员能够系统性地检验和比较各类评估指标，从而推动故事生成模型的发展。

解决学术问题

OpenMEVA主要解决了自然语言生成领域中自动评估指标与人类判断相关性弱、缺乏标准化基准数据集的问题。传统评估指标如BLEU、ROUGE等在开放域生成任务中表现不佳，难以准确反映生成文本的真实质量。该数据集通过提供人工标注的故事集和自动构建的测试样例，使研究者能够全面评估指标在多个维度的能力，包括识别词汇和语义重复、不合理角色行为、常识违反、不一致性以及错误因果时序关系等。这为设计更可靠的评估指标提供了实证基础，促进了NLG评估方法的科学进步。

实际应用

OpenMEVA在实际应用中主要用于支持故事生成系统的开发和优化。例如，在自动写作助手、交互式叙事系统或教育内容生成平台中，开发者可以利用该数据集测试和比较不同评估指标的性能，从而选择或设计出更符合人类偏好的评估工具。此外，其提供的开源工具包实现了多种评估指标，并支持生成自定义测试用例，有助于加速新评估方法的开发。这些应用不仅提升了生成文本的质量控制效率，也为产业界提供了可靠的评估标准。

数据集最近研究