allenai/hippocorpus

Name: allenai/hippocorpus
Creator: allenai
Published: 2024-01-18 11:05:30
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/allenai/hippocorpus

下载链接

链接失效反馈

官方服务：

资源简介：

Hippocorpus数据集是一个包含6,854个英语日记式短故事的数据集，这些故事涉及回忆和想象的事件。数据集通过众包框架收集，包括回忆的故事和摘要，然后提供给其他工人编写想象的故事。数据集还包含作者的人口统计信息（年龄、性别、种族）、他们的开放性经验以及与事件相关的变量（如事件的个人性、讲述频率等）。数据集的结构包括多个字段，如AssignmentId、WorkTimeInSeconds、WorkerId等，用于描述故事和作者的相关信息。

The Hippocorpus dataset is a collection of 6,854 English diary-style short stories covering both recalled and imagined events. It was collected via a crowdsourcing framework: recalled stories and their summaries were first gathered, then provided to other workers to compose imagined stories. The dataset also includes the authors' demographic information (age, gender, race), their openness to experience, as well as event-related variables such as the personal nature of the event, frequency of retelling, etc. The dataset contains multiple fields including AssignmentId, WorkTimeInSeconds, WorkerId and others, which are used to describe relevant information about the stories and their authors.

提供机构：

allenai

原始信息汇总

数据集描述

数据集概述

Hippocorpus是一个包含6,854个英语日记式短故事的数据集，这些故事涉及回忆和想象的事件。通过众包框架，首先收集工人的回忆故事和摘要，然后提供这些摘要给其他工人编写想象的故事。最后，几个月后，从一部分回忆作者那里收集回忆故事的再讲述版本。数据集还包括作者的 demographics（年龄、性别、种族）、他们的开放性体验，以及作者与事件关系的一些变量（例如，事件对作者的个人程度、他们讲述故事的频率等）。

支持的任务和排行榜

[更多信息需要]

语言

数据集包含英语。

数据集结构

数据实例

[更多信息需要]

数据字段

数据集包含以下字段：

AssignmentId: 故事的唯一ID
WorkTimeInSeconds: 工人完成整个任务（阅读说明、编写故事、回答问题）所花费的时间（秒）
WorkerId: 工人的唯一ID（随机字符串，非MTurk工人ID）
annotatorAge: 工人的年龄桶的下限（桶：18-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-54, 55+）
annotatorGender: 工人的性别
annotatorRace: 工人的种族/民族
distracted: 编写故事时的分心程度（5点Likert量表）
draining: 编写故事对情感的消耗程度（5点Likert量表）
frequency: 思考或谈论此事件的频率（5点Likert量表）
importance: 故事/事件对作者的影响、重要性或个人程度（5点Likert量表）
logTimeSinceEvent: 回忆事件发生以来的时间（天）的对数
mainEvent: 描述主要事件的短语
memType: 故事类型（回忆、想象、再讲述）
mostSurprising: 故事中最令人惊讶的方面的短语
openness: 代表工人开放性体验的连续变量
recAgnPairId: 对应于此再讲述故事的回忆故事的ID（想象故事为空）。按此变量分组以获取回忆-再讲述对。
recImgPairId: 对应于此想象故事的回忆故事的ID（再讲述故事为空）。按此变量分组以获取回忆-想象对。
similarity: 此事件/故事对作者生活的相似程度（5点Likert量表）
similarityReason: 相似性的自由文本注释
story: 关于想象或回忆事件的故事（15-25句）
stressful: 此编写任务的压力程度（5点Likert量表）
summary: 故事中事件的摘要（1-3句）
timeSinceEvent: 回忆事件发生以来的时间（天）

数据分割

[更多信息需要]

数据集创建

策划理由

[更多信息需要]

源数据

[更多信息需要]

初始数据收集和规范化

[更多信息需要]

源语言生产者是谁？

[更多信息需要]

注释

[更多信息需要]

注释过程

[更多信息需要]

注释者是谁？

[更多信息需要]

个人和敏感信息

[更多信息需要]

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

数据集最初由Maarten Sap、Eric Horvitz、Yejin Choi、Noah A. Smith、James W. Pennebaker在微软研究院工作期间创建。

许可信息

Hippocorpus在开放数据使用协议v1.0下发布。

引用信息

@inproceedings{sap-etal-2020-recollection, title = "Recollection versus Imagination: Exploring Human Memory and Cognition via Neural Language Models", author = "Sap, Maarten and Horvitz, Eric and Choi, Yejin and Smith, Noah A. and Pennebaker, James", booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.acl-main.178", doi = "10.18653/v1/2020.acl-main.178", pages = "1970--1978", abstract = "We investigate the use of NLP as a measure of the cognitive processes involved in storytelling, contrasting imagination and recollection of events. To facilitate this, we collect and release Hippocorpus, a dataset of 7,000 stories about imagined and recalled events. We introduce a measure of narrative flow and use this to examine the narratives for imagined and recalled events. Additionally, we measure the differential recruitment of knowledge attributed to semantic memory versus episodic memory (Tulving, 1972) for imagined and recalled storytelling by comparing the frequency of descriptions of general commonsense events with more specific realis events. Our analyses show that imagined stories have a substantially more linear narrative flow, compared to recalled stories in which adjacent sentences are more disconnected. In addition, while recalled stories rely more on autobiographical events based on episodic memory, imagined stories express more commonsense knowledge based on semantic memory. Finally, our measures reveal the effect of narrativization of memories in stories (e.g., stories about frequently recalled memories flow more linearly; Bartlett, 1932). Our findings highlight the potential of using NLP tools to study the traces of human cognition in language.", }

贡献

感谢@manandey添加此数据集。

搜集汇总

数据集介绍

构建方式

在认知科学与自然语言处理交叉领域，Hippocorpus数据集的构建体现了对人类记忆与想象过程语言痕迹的系统性探索。该数据集通过众包框架精心设计，首先收集参与者回忆的真实事件故事及其摘要，随后将这些摘要提供给另一组参与者，用以创作想象事件的故事。数月后，研究团队还从部分原始回忆作者处收集了重述版本的故事，形成了回忆、想象与重述三类叙事文本的配对结构。整个构建过程融合了作者人口统计学信息、心理特质变量及事件关联度等多维度标注，确保了数据在认知语言学分析中的深度与广度。

特点

Hippocorpus数据集的核心特点在于其独特的叙事类型对比结构，涵盖了6854篇英语日记式短篇故事，细致区分了回忆、想象与重述三种认知状态下的语言产出。数据集不仅包含丰富的叙事文本，还整合了作者年龄、性别、种族等人口学特征，以及开放性人格特质、事件重要性、讲述频率等心理行为变量。这种多维度的标注体系为探究记忆与想象在语言表达中的差异提供了实证基础，尤其适用于叙事流畅性、语义记忆与情景记忆表征等认知语言学议题的量化分析。

使用方法

该数据集主要应用于文本分类与叙事流分析任务，研究者可通过HuggingFace平台直接加载allenai/hippocorpus进行探索。使用时应依据memType字段区分故事类型，利用recAgnPairId与recImgPairId字段构建回忆-重述或回忆-想象的配对样本，以对比分析不同认知过程下的语言特征。数据集中提供的Likert量表评分与自由文本注解可用于训练模型评估叙事的情感负荷、事件相似度等认知维度，同时需注意遵循数据使用协议，妥善处理涉及个人敏感信息的人口统计学变量。

背景与挑战

背景概述

在认知科学与计算语言学的交叉领域，探索人类记忆与想象的语言表征已成为前沿课题。由微软研究院的Maarten Sap、Eric Horvitz、Yejin Choi、Noah A. Smith和James W. Pennebaker等学者于2020年创建的Hippocorpus数据集，旨在通过对比回忆事件与想象事件的叙事文本，揭示认知过程在语言中的痕迹。该数据集收录了6,854篇英文日记式短篇故事，涵盖回忆、想象及重述三种叙事类型，并附有作者人口统计学特征及事件关联度等多维度标注。其核心研究问题聚焦于叙事流线性、语义记忆与情景记忆的调用差异，为理解人类叙事认知机制提供了实证基础，推动了自然语言处理技术在心理语言学中的应用。

当前挑战

Hippocorpus数据集所应对的领域挑战在于区分回忆与想象叙事中的认知差异，这涉及对叙事流线性、事件特异性及记忆类型等抽象概念的量化建模。构建过程中的挑战包括：通过众包框架收集高质量叙事时，需确保故事的真实性与想象力平衡，并设计严谨的标注流程以获取作者 demographics 及事件关联度等敏感信息；同时，数据配对机制（如回忆-想象、回忆-重述配对）的复杂性要求精确的标识符管理，以维持叙事对比的有效性。此外，叙事文本的主观性与文化背景多样性可能引入偏差，需在数据标准化过程中审慎处理。

常用场景

经典使用场景

在认知科学与计算语言学的交叉领域，Hippocorpus数据集为探索人类记忆与想象的认知过程提供了独特资源。该数据集通过收集回忆性与想象性事件的日记式短篇故事，并辅以作者人口统计学及心理变量，使得研究者能够深入分析叙事流线性、语义与情景记忆的差异。经典应用场景包括利用自然语言处理技术，对比回忆与想象故事在叙事结构、事件描述上的系统性差异，从而揭示认知过程在语言表达中的痕迹。

实际应用

在实际应用层面，Hippocorpus数据集为开发基于人工智能的心理健康辅助工具与教育技术提供了数据支撑。例如，通过分析回忆与想象故事的语言特征，可以辅助评估个体的认知状态或情绪健康，应用于临床心理学中的记忆康复训练或创伤后应激障碍的干预研究。此外，该数据集还能用于改进对话系统与故事生成模型，使其输出更符合人类认知逻辑的自然叙事。

衍生相关工作

围绕Hippocorpus数据集，已衍生出多项经典研究工作。原始论文《Recollection versus Imagination: Exploring Human Memory and Cognition via Neural Language Models》率先利用该数据集分析了叙事流与记忆类型的关联。后续研究扩展至利用预训练语言模型探测故事中的认知偏差，或结合多模态数据探索记忆的情感维度。这些工作不仅巩固了数据集在认知计算领域的地位，也激发了关于语言、记忆与计算模型交互的持续探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集