Emotion Transcription in Conversation Dataset

github2026-01-16 更新2026-01-22 收录

下载链接：

https://github.com/UEC-InabaLab/ETCDataset

下载链接

链接失效反馈

官方服务：

资源简介：

Emotion Transcription in Conversation Dataset 是一个包含约1,000件日语对话的数据集，其中每个对话中的发言都附有说话者自己描述的心情文。此外，数据集还包括基于心情文的感情标签和说话者的性格特性（TIPI-J）。该数据集是为“对话中的心情描述（Emotion Transcription in Conversation; ETC）”任务构建的基准数据集。

The Emotion Transcription in Conversation (ETC) Dataset is a benchmark dataset developed for the "Emotion Transcription in Conversation (ETC)" task. It contains approximately 1,000 Japanese conversations, where each utterance in the conversations is paired with the speaker's self-reported mood description. Additionally, the dataset includes emotion labels derived from these mood descriptions, as well as the personality traits of the speakers (TIPI-J).

创建时间：

2026-01-08

原始信息汇总

Emotion Transcription in Conversation Dataset 概述

数据集简介

Emotion Transcription in Conversation Dataset 是一个日语对话数据集，包含约1,000个对话。其核心特点是每个对话回合的发言均附有由说话者本人描述的心情文本。此外，数据集还包含基于心情文本的情感标签以及说话者的性格特征（TIPI-J）。该数据集是专为“对话中的心情描述”任务构建的基准数据集。

关键统计信息

对话数量：997 个对话
说话者数量：198 名
发言数量 / 心情文数量：9,970 条
每对话发言数：10 条发言
发言平均长度（字符数）：42.72 字符
- 说话者：44.65 字符
- 倾听者：40.79 字符
心情文平均长度（字符数）：28.88 字符
- 说话者：28.91 字符
- 倾听者：28.85 字符
情感类别数量：7类（Ekman的6种基本情感 + “无对应”）
语言：日语

数据构成

数据存储在 etc/ 目录下，主要包括对话数据和说话者性格特征数据。

对话数据

位置：etc/dialogues/*.json（每个文件对应一个对话）
内容：每个对话包含参与者ID、发言文本、心情文本和情感标签。
对话结构：对话以说话者的发言开始，说话者和倾听者交替发言（每个对话共10轮发言）。
收集设置：采用EmpatheticDialogues的对话设置，为说话者指定了特定的情感标签（共32种）。
情感标注：情感标签基于Ekman的6种基本情感（喜悦、悲伤、恐惧、愤怒、惊讶、厌恶）加上“无对应”共7类。每条心情文由3名标注者以多标签形式进行标注。
数据字段：
- dialogue_id：对话ID
- dialogue_emotion：对话进行时指定的情感标签
- participants：包含说话者(speaker)和倾听者(listener)ID的字典
- dialogue：发言信息列表，每项包含：
  - turn：回合编号
  - role：角色（speaker 或 listener）
  - utterance：发言文本
  - emotion_transcription：发言时说话者的心情文本
  - emotions：心情文所表达的情感标签列表（3名标注者的多标签结果）

说话者性格特征数据

位置：etc/personality_traits.json
内容：包含TIPI-J（日语版十项人格量表）的问卷项目、说话者的回答以及据此计算出的Big Five人格特质得分。
数据字段：
- item：问卷项目字典（i01至i10）
- personality：以说话者ID为键的性格特征数据字典，每个ID下包含：
  - participant_id：说话者ID
  - response：对各问卷项目的回答
  - score：Big Five各维度得分（开放性、勤勉性、外向性、协- 调性、神经质倾向），分值范围2-14。

数据分割信息

位置：etc/split.json
内容：记录了相关论文实验中使用的训练集、验证集和测试集分割信息。

使用许可与引用

许可证：本数据集基于 CC BY-NC 4.0 许可证提供。
引用要求：使用本数据集发表研究成果时，需引用指定的论文（标题：対話における心情記述: 自然言語による機微かつ複雑な心情理解のためのベンチマーク，作者：田中義規等，会议：言語処理学会第32回年次大会，年份：2026）。

重要注意事项

数据集中的对话内容通过众包收集，不代表数据集创建者或其所属机构的信念或观点。
公开版本的数据已进行质量检查，并出于伦理考虑移除了被认为有问题的对话。相关论文中的分析基于移除前的数据集，统计信息可能与公开版不同。
说话者姓名已被替换为数据集创建者分配的匿名ID。
使用本数据集时，严禁：
- 试图从数据中识别特定个人。
- 将数据集用于冒充特定说话者。
- 在用于说话者性格特征推断等用途时，忽视不希望自身信息被推断的说话者的权利。

搜集汇总

数据集介绍

构建方式

在对话情感理解的研究领域，构建能够捕捉细腻内心活动的数据集至关重要。Emotion Transcription in Conversation Dataset 的构建采用了基于 EmpatheticDialogues 的对话设置，通过众包方式收集了约一千个日语对话。每个对话由指定特定情感标签的说话者发起，围绕相关经历展开，并由倾听者进行回应，确保对话自然流畅。数据收集后，经过严格的伦理审查和质量检查，排除了不适当内容，并对说话者身份进行了匿名化处理，最终形成了包含九千余条话语及其对应心情文本的高质量语料。

使用方法

该数据集主要服务于对话心情描述这一自然语言处理任务，可作为训练和评估相关模型的基准。研究者可通过加载 `dialogues` 目录下的 JSON 文件获取对话内容、心情文本及情感标签，并利用 `personality_traits.json` 分析性格特质与情感表达之间的关联。数据集附带的 `split.json` 文件提供了标准的训练、验证和测试集划分，确保了实验的可复现性。在使用时，需严格遵守数据许可协议，注重隐私保护，避免任何可能识别个人身份或进行身份冒充的用途。

背景与挑战

背景概述

情感计算与人机交互领域长期致力于理解对话中复杂的人类情感状态。Emotion Transcription in Conversation Dataset（ETC数据集）由田中義規、上原隆一等研究者于2026年构建，旨在为“对话中的心情描述”任务提供基准。该数据集包含约一千个日语对话，每个话语均附有说话者自我描述的心情文本，并标注了基于Ekman基本情感模型的标签及说话者的性格特质。其核心研究问题聚焦于超越传统离散情感分类，通过自然语言捕捉对话中细腻、动态的内心活动，从而推动更具同理心和上下文感知能力的人工智能系统发展。

当前挑战

该数据集旨在解决对话情感理解的深层挑战，即如何准确捕捉并形式化话语背后微妙且主观的情感体验。构建过程中的主要挑战包括：确保心情文本描述的真实性与深度，避免表面化或模式化表达；处理多标注者间对同一心情文本的情感标签判断不一致性问题，这反映了情感本身的多义性与复杂性；在通过众包收集对话时，需平衡数据多样性与伦理合规性，有效筛选并匿名化可能涉及敏感或个人身份信息的内容，以保障参与者隐私与数据安全。

常用场景

经典使用场景

在对话情感计算领域，Emotion Transcription in Conversation Dataset 为研究者提供了一个独特的基准平台，用于探索对话中隐含的心理状态。该数据集最经典的使用场景是作为“对话中的心情描述”任务的评估标准，通过自然语言生成技术，模型需要根据对话上下文推断并生成反映说话者内心感受的文本描述。这一过程不仅考验模型对情感语义的理解能力，还涉及对对话动态和人际互动的深层解析，为情感智能系统的开发奠定了数据基础。

解决学术问题

该数据集有效解决了情感计算研究中长期存在的若干关键问题。传统情感分类方法往往局限于离散的情感标签，难以捕捉人类情感的微妙性和复杂性。此数据集通过引入自然语言形式的心情描述，使得研究能够超越简单的分类，深入探讨情感的连续谱系和上下文依赖性。它促进了对话情感理解从粗粒度向细粒度、从静态向动态的转变，为构建更加人性化和精准的情感分析模型提供了理论支撑和实践路径。

实际应用

在实际应用层面，该数据集为开发具有高共情能力的对话系统提供了宝贵的训练资源。基于此数据训练的模型，可以应用于心理健康辅助聊天机器人、客户服务情感分析、以及社交互动平台的情感支持模块。系统能够通过理解用户的情绪状态并生成恰当的情感回应，从而提升人机交互的自然度和有效性。此外，结合数据集中的性格特质信息，还可以实现个性化的情感交互设计，使技术应用更加贴合个体差异。

数据集最近研究