five

HANNA

收藏
arXiv2022-09-15 更新2024-06-21 收录
下载链接:
https://github.com/dig-team/hanna-benchmark-asg
下载链接
链接失效反馈
官方服务:
资源简介:
HANNA数据集是由巴黎综合理工学院电信学院创建的,包含1056个由10种不同的自动故事生成系统生成的故事。每个故事都与一个人类故事相关联,并由3个不同的评价者根据6个人类评价标准进行标注。该数据集旨在量化评估自动评价指标与人类评价标准之间的相关性,特别关注故事生成的质量和创造性。HANNA数据集的应用领域包括游戏、通信和教育,旨在通过标准化和广泛的人类评价来加强故事生成的评估。

The HANNA dataset was developed by the School of Telecommunications of École Polytechnique (Paris). It contains 1056 stories generated by 10 distinct automatic story generation systems, with each story paired with a corresponding human-written counterpart. Each story is annotated by three independent evaluators based on six human evaluation criteria. This dataset aims to quantitatively assess the correlation between automatic evaluation metrics and human evaluation standards, with a particular focus on the quality and creativity of story generation. The HANNA dataset has applications in fields including games, communications and education, and is designed to enhance the evaluation of story generation via standardized and extensive human evaluations.
提供机构:
巴黎综合理工学院电信学院
创建时间:
2022-08-25
搜集汇总
数据集介绍
main_image_url
构建方式
在自动故事生成领域,评估体系的标准化与精细化是推动技术发展的关键。HANNA数据集的构建遵循了严谨的学术范式,其核心在于系统性地收集与标注多源生成故事。研究团队以WritingPrompts数据集为基础,选取了96个通用提示,并汇集了10个不同的ASG系统(包括3个既有系统和7个基于预训练语言模型微调的系统)针对这些提示生成的共计1,056个故事。每个故事均由三位经过筛选的标注者,依据一套源自社会科学文献的六维人工评估标准进行独立标注,最终形成了包含19,008条人工标注的大规模、高质量评估数据集。
使用方法
HANNA数据集为自动故事生成领域的评估研究提供了多层次的实用框架。研究者可利用其丰富的人工标注数据,作为评估新ASG模型性能的黄金标准,通过计算模型输出在六个维度上的得分与人类故事的差距来衡量进步。更重要的是,数据集支持对自动评估指标进行深入的元分析,研究者可以分析各类指标(如基于字符串、嵌入或模型的指标)与不同人工标准的相关性强弱,从而为特定评估目标筛选最合适的自动指标。此外,数据集的结构化设计也便于进行系统间的对比分析、探究叙事质量的不同维度间关系,以及推动面向特定评估维度的新指标研发。
背景与挑战
背景概述
在自然语言生成领域,自动故事生成(ASG)技术旨在从简短提示中创作连贯叙事,其评估长期依赖主观性强且标准不一的人工评判。为系统化解决此问题,由Cyril Chhun、Pierre Colombo等学者于2022年提出了HANNA数据集,该数据集收录了10种不同ASG系统基于96个提示生成的1,056个故事,并由人工标注者沿六个正交维度进行注释。HANNA的创建标志着ASG评估从经验性向实证性转变,通过量化分析72种自动指标与人工准则的相关性,为构建更可靠的评估体系奠定了基石,深刻影响了叙事智能研究的标准化进程。
当前挑战
HANNA数据集所应对的核心挑战在于自动故事生成领域缺乏统一且全面的评估标准。传统人工评估准则如连贯性、相关性等往往相互重叠且覆盖不全,而自动评估指标与人类判断的相关性长期未被系统验证。在数据集构建过程中,研究者面临多重困难:首先需从社会科学文献中提炼出独立性强的六维评估框架(相关性、连贯性、共情性、意外性、吸引度、复杂性),确保准则既全面又无冗余;其次需协调10种异构ASG系统输出对齐,并设计严谨的人工标注协议以控制主观偏差;最后需处理大规模故事标注中的噪声问题,并通过统计方法验证标注者间一致性,这些挑战共同凸显了叙事评估任务的复杂性与微妙性。
常用场景
经典使用场景
在自动故事生成研究领域,HANNA数据集被广泛用于评估不同生成系统的性能。该数据集汇集了10种不同ASG系统在96个统一提示下生成的1056个故事,每个故事均经过人工标注,覆盖了相关性、连贯性、共情、惊喜、参与度和复杂性六个维度。研究者通过分析这些标注数据,能够系统比较各类生成模型在叙事质量上的差异,为模型优化提供实证依据。
解决学术问题
HANNA数据集解决了自动故事生成领域长期存在的评估标准不统一问题。传统研究依赖有限的人工评价指标,且自动评价指标与人类判断的相关性不明确。该数据集通过引入一套基于社会科学理论构建的六维评价体系,首次实现了对72种自动指标与人类评价之间相关性的量化分析,揭示了现有自动评估方法的局限性,为建立更可靠的ASG评估框架奠定了理论基础。
实际应用
该数据集的实际应用主要体现在推动自动故事生成技术的产业化进程。在游戏剧情生成、个性化内容创作、教育叙事系统等领域,HANNA提供的标准化评估方案能够帮助开发者客观比较不同生成引擎的优劣。例如,通过分析数据集中GPT-2等通用模型优于专用ASG系统的现象,产业界可调整技术路线,优先采用经过验证的预训练语言模型进行故事生成应用的开发。
数据集最近研究
最新研究方向
在自动故事生成领域,HANNA数据集的推出标志着评估范式的深刻变革。该数据集通过整合社会科学理论,构建了包含相关性、连贯性、共情、惊喜、参与度和复杂性六个维度的综合评价体系,为故事生成模型的细粒度评估提供了标准化基准。当前研究前沿聚焦于探索自动评估指标与人类评判之间的关联性,揭示传统指标如BLEU和ROUGE在捕捉叙事深层特质方面的局限性。热点方向包括开发基于预训练语言模型的新型评估指标,如BARTScore和BERTScore,并推动跨学科合作以深化对叙事质量计算表征的理解。这一进展不仅促进了评估方法的科学化,也为生成模型的优化提供了关键指导,推动了叙事智能向更具人性化特质的方向演进。
相关研究论文
  • 1
    Of Human Criteria and Automatic Metrics: A Benchmark of the Evaluation of Story Generation巴黎综合理工学院电信学院 · 2022年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作