Group Affect and Performance (GAP) Corpus

github2021-11-18 更新2024-05-31 收录

下载链接：

https://github.com/gmfraser/gap-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

GAP语料库是一个包含会议记录、注释、合并文件和会议数据的数据集，用于研究群体情感和表现。数据集中的会议和成员都有特定的标识码，会议记录包含在Transcripts/文件夹中，注释在Annotations/文件夹中，合并文件在Merged/文件夹中，会议数据在Group-Individual-Data/文件夹中。此外，还提供了音频记录和其他详细数据，如参与者的特征和会议特征。

The GAP corpus is a dataset comprising meeting transcripts, annotations, merged files, and meeting data, designed for the study of group emotions and performance. Each meeting and member within the dataset is assigned a specific identifier. The meeting transcripts are located in the Transcripts/ folder, annotations in the Annotations/ folder, merged files in the Merged/ folder, and meeting data in the Group-Individual-Data/ folder. Additionally, the dataset includes audio recordings and other detailed data such as participant characteristics and meeting features.

创建时间：

2019-06-29

原始信息汇总

数据集概述

数据集名称

GAP Corpus：Group Affect and Performance (GAP) Corpus

数据集内容

Meeting and Group Member Identification (ID) Codes：
- 会议使用基于数据收集时间顺序的数字编码。
- 小组成员使用五种颜色（蓝、绿、粉、橙、黄）进行编码。
Meeting Transcripts：
- 位于 "Transcripts/" 文件夹中的.txt文件。
- 文件名包含会议ID和数据收集的日期时间。
- 每条发言标注了小组成员ID、发言编号及起止时间。
Meeting Annotations：
- 位于 "Annotations/" 文件夹。
- 包含决策发言、情感发言、个人排名提及及生存物品提及的标注。
- 每条标注包含ID、编号及对应发言的起止时间。
Merged Transcripts and Annotations：
- 位于 "Merged/" 文件夹，包含合并的转录和标注文件。
Meeting Data：
- 位于 "Group-Individual-Data/" 文件夹。
- 包含冬季生存任务数据、任务后问卷响应、参与者特征及会议特征。
- 包含两个Excel文件：
  - Group-Level Meeting Data：提供会议规模、时长、绝对小组得分等信息。
  - Individual-Level Meeting Data：提供个人在大学的年级、性别、语言背景、绝对个人得分等信息。
Meeting Audio：
- 音频文件（.wav格式）可在数据集网页单独下载。
- 文件名包含会议ID和录制日期时间。

数据集许可

Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)

搜集汇总

数据集介绍

构建方式

Group Affect and Performance (GAP) Corpus 数据集的构建基于团队会议的实际录音和转录，涵盖了多个团队在冬季生存任务中的讨论过程。数据收集过程中，每个会议和团队成员均通过独特的编码进行标识，会议按时间顺序编号，团队成员则随机分配颜色代码。会议转录文本以.txt文件形式存储，包含每位成员的发言编号及时间戳。此外，会议注释文件详细标注了决策性发言、情感性发言等关键信息，并与转录文本进行合并，形成综合数据文件。

特点

GAP Corpus 数据集的特点在于其多维度的数据覆盖，不仅包含会议转录文本和注释，还提供了团队及个体层面的详细数据。团队数据包括会议规模、会议时长、任务得分等，个体数据则涵盖性别、语言背景、任务影响力等。数据集还提供了音频文件，进一步丰富了数据的可用性。通过这种多层次的数据结构，研究者能够深入分析团队情感与绩效之间的关系。

使用方法

使用 GAP Corpus 数据集时，研究者可从‘Transcripts/’文件夹中获取会议转录文本，结合‘Annotations/’文件夹中的注释信息，分析团队决策和情感表达。团队及个体层面的数据存储在‘Group-Individual-Data/’文件夹中，可通过Excel文件进行详细分析。音频文件则需从数据集网页单独下载，用于语音分析或与文本数据结合研究。数据集的使用需遵循CC BY-NC 4.0许可协议，确保非商业用途。

背景与挑战

背景概述

Group Affect and Performance (GAP) Corpus 数据集由研究者团队于近年发布，旨在探索团队情感与绩效之间的关系。该数据集聚焦于团队会议中的互动行为，通过转录、注释和音频记录等多种形式，详细记录了团队在冬季生存任务中的表现。数据集的核心研究问题在于如何通过团队成员的言语和行为，量化团队的情感状态与绩效表现。GAP Corpus 的发布为团队动力学、情感计算和组织行为学等领域提供了宝贵的研究资源，推动了相关领域的实证研究。

当前挑战

GAP Corpus 数据集在解决团队情感与绩效量化问题时面临多重挑战。首先，团队互动中的情感表达复杂多样，如何准确标注和量化情感状态是一个技术难题。其次，团队绩效的评估涉及多维指标，如时间管理、效率和工作质量等，如何统一这些指标并确保其客观性需要深入研究。此外，数据集的构建过程中，转录和注释的准确性依赖于人工操作，如何减少主观偏差并提高数据质量是另一大挑战。最后，音频数据的处理与分析对计算资源和技术要求较高，如何高效提取有用信息仍需进一步探索。

常用场景

经典使用场景

Group Affect and Performance (GAP) Corpus 数据集广泛应用于群体行为学和心理学研究中，特别是在分析团队会议中的情感表达和决策过程。研究者通过该数据集中的会议记录和注释，能够深入探讨团队成员之间的互动模式、情感传递以及这些因素如何影响团队的整体表现。

衍生相关工作

GAP 数据集催生了一系列关于群体情感分析和团队绩效评估的研究工作。例如，基于该数据集的研究提出了新的情感计算模型，用于预测团队决策中的情感变化。此外，一些研究还结合机器学习技术，开发了自动化工具来评估团队协作中的情感状态和绩效表现。

数据集最近研究