HappyDB

Name: HappyDB
Creator: 东京大学
Published: 2018-01-26 02:56:35
License: 暂无描述

arXiv2018-01-26 更新2024-06-21 收录

下载链接：

http://rebrand.ly/happydb

下载链接

链接失效反馈

官方服务：

资源简介：

HappyDB是由东京大学和MIT等机构合作创建的一个包含100,000个人工收集的快乐时刻的数据集。该数据集通过众包方式，收集了人们在过去的24小时或3个月内感到快乐的时刻描述。HappyDB不仅包含了原始数据，还包括了清理后的版本，其中纠正了拼写错误并移除了空洞的时刻。数据集的应用领域广泛，旨在通过分析快乐时刻的文本描述，帮助开发能够理解人们如何表达快乐的技术，进而促进积极心理学和幸福科学的研究。

HappyDB is a dataset containing 100,000 manually collected happy moments, developed through collaboration among institutions including the University of Tokyo and MIT. This dataset collects textual descriptions of happy moments experienced by individuals within the past 24 hours or three months via crowdsourcing. In addition to the raw data, HappyDB also provides a cleaned version, which corrects spelling errors and removes empty or meaningless moment entries. The dataset has a wide range of application fields, aiming to help develop technologies that understand how people express happiness by analyzing textual descriptions of happy moments, thereby promoting research in positive psychology and the science of well-being.

提供机构：

东京大学

创建时间：

2018-01-24

搜集汇总

数据集介绍

构建方式

HappyDB数据集是通过众包方式构建的，研究者们利用Mechanical Turk平台在三个月内收集了10万个快乐的时刻。参与者被要求回答在过去24小时或过去3个月里让他们感到快乐的事情。数据集分为两个部分，分别对应这两个不同的时间段。在收集数据后，研究者们对数据进行了清理，包括修正拼写错误和删除了一些无意义的句子。此外，每个快乐的时刻都标注了提供者的反思时间段和人口统计信息。

特点

HappyDB数据集具有以下特点：首先，它是一个多样化的语料库，包含了各种主题的快乐时刻，如工作、休闲、锻炼等。其次，数据集中的句子表现出高度的词汇变化和复杂的结构，53%的句子包含3个或更多的动词。第三，HappyDB是一个情感丰富的语料库，通过LIWC和VAD模型分析，其内容显示出较高的真实性和情感积极性。最后，数据集中的快乐时刻根据反思时间段的不同，内容也存在显著差异，24小时的反思更多地涉及日常活动，而3个月的反思则更多地反映不经常发生的事件。

使用方法

HappyDB数据集可以用于研究自然语言处理中的多个问题，例如：识别快乐时刻中描述的活动、发现描述活动的常见释义、分析快乐时刻的原因与期望的关系、去除快乐时刻中的冗余文本、创建一个有用的活动本体并将快乐时刻映射到该本体上。此外，数据集还可以用于分类快乐时刻，并根据分类结果进行可视化、推荐活动等。HappyDB数据集及其标注信息已经公开，可供研究者们进一步探索和利用。

背景与挑战

背景概述

积极心理学中的幸福感科学领域，研究的是如何通过理解哪些行为可以使人们保持快乐。近年来，人们开始关注开发技术，将幸福感科学的发现融入到用户的日常生活中，引导他们采取增加快乐的行为。HappyDB数据集正是在此背景下创建的，由东京大学、麻省理工学院和Recruit理工学院的研究人员共同开发。该数据集包含10万个由众包工人提供的快乐时刻，旨在帮助技术理解人们如何用文字表达他们的快乐时刻。HappyDB数据集的创建不仅为幸福感科学领域提供了宝贵的数据资源，也为自然语言处理（NLP）领域带来了新的研究课题，如情感分析、主题挖掘和聚类等。

当前挑战

HappyDB数据集的研究背景主要涉及如何理解和分析快乐时刻，以及如何将这些信息应用到技术中，帮助用户提高幸福感。然而，HappyDB数据集也面临着一些挑战。首先，如何准确理解和分析快乐时刻是一个复杂的NLP问题，需要更深入的语义角色标注等技术。其次，构建过程中遇到的挑战包括如何处理语言变异、拼写错误等。最后，HappyDB数据集的另一个挑战是如何将其与其他数据集进行比较，以便更好地理解和分析快乐时刻。

常用场景

经典使用场景

HappyDB 是一个由 100,000 个众包快乐时刻组成的语料库，旨在帮助开发能够理解人们在文本中如何表达快乐时刻的技术。该数据集的经典使用场景包括但不限于：1) 分析快乐时刻中描述的活动；2) 发现描述活动的常见释义；3) 确定快乐时刻的原因是否与个人的期望相关；4) 可靠地删除快乐时刻中的冗余文本；5) 创建一个有用的快乐活动本体，并将快乐时刻映射到该本体。通过这些使用场景，HappyDB 为理解快乐时刻和文本中表达的情感提供了重要的资源。

衍生相关工作

HappyDB 衍生了许多相关的研究工作。例如，研究人员使用 HappyDB 来开发能够理解快乐时刻中描述的活动的自然语言处理技术。此外，HappyDB 还被用于开发能够识别文本中表达的情感的情绪分析工具。HappyDB 的衍生工作有助于推动自然语言处理技术的发展，使其能够更好地理解人类幸福和福祉。

数据集最近研究