HANNA|自动故事生成数据集|自然语言处理数据集

github2024-05-17 更新2024-05-31 收录

自动故事生成

自然语言处理

下载链接：

https://github.com/dig-team/hanna-benchmark-asg

下载链接

链接失效反馈

资源简介：

HANNA是一个大型的人工注释叙事数据集，用于自动故事生成（ASG）评估。该数据集包含从96个提示中生成的1,056个故事的注释，每个故事由3个评分者在6个标准（相关性、连贯性、同情心、惊喜、参与度和复杂性）上进行评分，总计19,008个注释。此外，还提供了这些故事由72个自动指标和4个不同的语言模型（Beluga-13B, Llama-13B, Mistral-7B, ChatGPT）评估的分数。

HANNA is a large-scale human-annotated narrative dataset designed for the evaluation of automatic story generation (ASG). The dataset comprises annotations for 1,056 stories generated from 96 prompts, with each story evaluated by three raters across six criteria (relevance, coherence, empathy, surprise, engagement, and complexity), resulting in a total of 19,008 annotations. Additionally, the dataset provides scores for these stories as assessed by 72 automated metrics and four distinct language models (Beluga-13B, Llama-13B, Mistral-7B, ChatGPT).

创建时间：

2022-08-24

原始信息汇总

数据集概述

数据集名称

HANNA (Human-ANnotated NArratives for ASG evaluation)

数据集内容

故事数量: 1,056个故事
故事来源: 来自WritingPrompts数据集的96个提示
故事生成模型: 包括Human, BertGeneration, GPT-2等
故事评估: 每个故事由3位评分者根据6个标准（相关性、连贯性、同情心、惊喜、参与度和复杂性）进行评分，总计19,008次评分
自动评估: 72种自动评估指标和4种大型语言模型（Beluga-13B, Llama-13B, Mistral-7B, ChatGPT）的评分

数据集文件

hanna_stories_annotations.csv: 包含故事的原始注释
- 字段包括：故事ID、提示、人类故事、生成故事、模型、相关性、连贯性、同情心、惊喜、参与度、复杂性、工作者ID、任务ID、工作时间（秒）、名称
hanna_metrics_scores_llm.csv: 包含每种系统每篇故事的平均人类注释、平均LLM注释和自动测量分数
llm_answers 文件夹: 包含LLM的完整答案
user.study.csv: 包含约1,500个用户研究中的LLM解释注释
hanna_llm_stories.csv: 包含由Llama-7B, Beluga-13B, Llama-30B和Platypus2-70B生成的384个故事

示例数据

故事ID	提示	人类	故事	模型	相关性	连贯性	同情心	惊喜	参与度	复杂性
99	关于老年巫师和他的年轻女学徒的故事	...	...	BertGeneration	3	2	2	2	2	3
519	在僵尸末日中，你是永生的，僵尸忽略你，你试图在爆发期间过正常生活	...	...	GPT-2	5	5	3	4	4	4
862	新总统当选时，他们接受了一个特殊的安全简报。实际上，这是一个古老的传统，其中各种导演、军事官员和现任部长提出虚假证据，并竞争看谁能说服总统相信最荒谬的事情	...	...	Fusion	2	1	1	1	1	1

使用的技术和工具

用于生成故事的系统：BertGeneration, GPT-2, Fusion等
用于分析的库：nlp-williams

数据集用途

用于评估自动故事生成（ASG）的质量，通过人类注释和自动评估指标来衡量故事的多个维度。

AI搜集汇总

数据集介绍

构建方式

HANNA数据集的构建基于对1,056个从96个提示生成的故事的详细注释，这些提示源自WritingPrompts数据集。每个故事由3名评判者根据6个标准（相关性、连贯性、共情、惊喜、吸引力和复杂性）进行评分，总计产生了19,008个注释。此外，该数据集还包含了由72个自动评估指标和4种不同的大型语言模型（如Beluga-13B、Llama-13B、Mistral-7B和ChatGPT）对这些故事的评分。

特点

HANNA数据集的显著特点在于其多维度的评估体系，不仅包括人工注释的详细评分，还整合了多种自动评估指标和大型语言模型的评分，提供了对故事生成质量的全面评估。此外，数据集的多样性和规模使其成为研究故事生成和评估的宝贵资源。

使用方法

使用HANNA数据集时，用户可以通过提供的Jupyter Notebook进行数据可视化和分析，该Notebook包含了生成结果的代码，并允许用户轻松查看CSV文件中的数据。用户需安装Python 3.9.7及所需的软件包，并从nlp-williams库中获取williams.py文件以运行部分代码。数据集的详细注释和评分信息可用于训练和验证故事生成和评估模型。

背景与挑战

背景概述

HANNA数据集是由Cyril Chhun、Fabian Suchanek和Chloé Clavel等研究人员于2022年首次发布，并在2024年进行了更新。该数据集旨在评估自动生成故事的质量，特别是在故事生成的相关性、连贯性、共情、惊喜、吸引力和复杂性等六个维度上的表现。HANNA数据集包含了1,056个从96个提示生成的故事，每个故事由3名评判者进行标注，总计19,008个标注。此外，数据集还包含了72个自动评估指标和4个大型语言模型的评分，为故事生成领域的研究提供了丰富的资源。

当前挑战

HANNA数据集面临的挑战主要集中在故事生成质量的评估上。首先，如何准确量化和标准化人类对故事的主观评价是一个复杂的问题，尤其是在共情、惊喜和吸引力等主观性较强的维度上。其次，自动评估指标与人类评价之间的一致性也是一个重要的挑战，尽管有72个自动评估指标，但如何确保这些指标能够准确反映人类的主观感受仍需进一步研究。此外，数据集的构建过程中，如何确保评判者的标注一致性和可靠性也是一个不容忽视的问题。

常用场景

经典使用场景

HANNA数据集在自动故事生成与评估领域中具有经典应用场景。该数据集通过提供1,056个由不同模型生成的故事及其对应的6项人类评估标准（相关性、连贯性、共情、惊喜、吸引力和复杂性）的详细标注，为研究者提供了一个全面的基准。研究者可以利用这些标注来训练和验证自动评估模型，从而提升故事生成系统的质量。此外，数据集还包含了72种自动评估指标的得分，使得研究者能够比较不同评估方法的性能，进一步推动故事生成与评估技术的发展。

衍生相关工作

HANNA数据集的发布催生了一系列相关研究工作。例如，研究者基于该数据集开发了新的自动评估模型，这些模型在多个公开基准测试中表现优异，显著提升了故事生成系统的评估精度。此外，HANNA数据集还激发了对多模态故事生成与评估的研究，探索如何结合图像、音频等其他模态来增强故事的表达力和评估效果。这些衍生工作不仅丰富了自然语言处理领域的研究内容，还为实际应用提供了更多可能性。

数据集最近研究

最新研究方向

在自然语言处理领域，HANNA数据集的最新研究方向主要集中在自动故事生成与评估的交叉点上。该数据集通过提供大量人工标注的故事及其对应的自动评估指标，为研究者提供了一个全面的基准，以探索大型语言模型在故事生成中的表现及其与人类评价标准的契合度。这一研究不仅有助于提升故事生成模型的质量，还为自动评估系统的设计提供了宝贵的参考。此外，HANNA数据集的发布也促进了跨学科的合作，特别是在计算语言学与认知科学之间，推动了对人类叙事偏好的深入理解。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息，数据通过爬虫技术获取并整理成CSV格式，用于音乐数据挖掘和推荐系统构建。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集：SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV，以及由国防科技大学团队开发的数据集，包括模拟陆基和太空基数据，以及真实手动标注的太空基数据。数据集包含具有各种目标形状（如点目标、斑点目标、扩展目标）、波长（如近红外、短波红外和热红外）、图像分辨率（如256、512、1024、3200等）的图像，以及不同的成像系统（如陆基、空基和太空基成像系统）。

github 收录