多模态情感聊天翻译数据集(MSCTD)|多模态翻译数据集|情感分析数据集

arXiv2022-02-28 更新2024-06-21 收录

多模态翻译

情感分析

下载链接：

https://github.com/XL2248/MSCTD

下载链接

链接失效反馈

资源简介：

多模态情感聊天翻译数据集(MSCTD)由北京交通大学和腾讯微信AI模式识别中心共同创建，包含17,841个多模态双语对话，总计173,240个<英语语句, 中文/德语语句, 图像, 情感>四元组。数据集通过自动和人工标注两个步骤构建，确保了数据的质量和多样性。每个语句对都与反映当前对话场景的视觉上下文相对应，并标注有情感标签。MSCTD不仅用于多模态聊天翻译研究，还为多模态对话情感分析提供了新的基准，旨在通过整合对话历史和视觉上下文，生成更准确的翻译，并解决多模态机器翻译在对话中的挑战。

提供机构：

北京交通大学北京交通数据分析与挖掘重点实验室

创建时间：

2022-02-28

AI搜集汇总

数据集介绍

构建方式

多模态情感聊天翻译数据集（MSCTD）的构建基于OpenViDial数据集，该数据集包含与图像对应的单语（英语）话语。为了构建MSCTD，研究团队首先对OpenViDial中的英语话语进行了校正，并为其标注了相应的中文和德语翻译以及情感标签。具体步骤包括自动标注和人工标注两个阶段。自动标注阶段利用构建的双语字幕数据库，通过完美匹配英语字幕来选择中文翻译，约有78.57%的原始英语话语被成功配对。人工标注阶段则由三位精通英语的中国研究生根据标注规则进行，确保翻译和情感标签的准确性。

特点

MSCTD数据集的显著特点在于其多模态性和情感标注的细致性。该数据集包含了142,871对英语-中文话语和30,370对英语-德语话语，每对话语均附有反映当前对话场景的视觉上下文，并标注了情感标签（积极、中性、消极）。此外，MSCTD还提供了两个新的多模态对话情感分析基准，进一步丰富了数据集的应用场景。

使用方法

MSCTD数据集可广泛应用于多模态机器翻译和对话情感分析研究。研究者可以利用该数据集训练和评估多模态翻译模型，通过融合对话历史和视觉上下文信息，提升翻译的准确性。同时，MSCTD的情感标注特性使其成为对话情感分析任务的理想数据集，研究者可以探索视觉信息和对话历史对情感分类的影响，推动多模态对话情感分析领域的发展。

背景与挑战

背景概述

多模态情感聊天翻译数据集（MSCTD）由北京交通大学和腾讯微信人工智能中心的研究团队共同创建，旨在解决多模态机器翻译在对话中的应用问题。该数据集包含了142,871对英汉对话和30,370对英德对话，每对对话都附有情感标签和视觉上下文信息。MSCTD的构建标志着多模态对话翻译研究的一个重要里程碑，为研究者提供了一个丰富的资源来探索对话历史和视觉信息在翻译中的作用。

当前挑战

MSCTD在构建过程中面临多项挑战。首先，多模态对话翻译本身就是一个复杂的问题，需要同时处理文本和视觉信息，这增加了模型的复杂性和计算需求。其次，数据集的标注工作涉及多语言和多模态的精确对齐，确保情感标签和视觉上下文的一致性是一个技术难题。此外，如何有效地融合多模态信息以提高翻译的准确性和情感识别的精度，也是当前研究面临的主要挑战。

常用场景

经典使用场景

多模态情感聊天翻译数据集（MSCTD）在多模态机器翻译和文本聊天翻译领域中具有经典应用场景。该数据集通过整合对话历史和视觉上下文，旨在生成更准确的翻译。具体应用包括在多语言对话中，利用视觉信息和对话历史来辅助翻译，特别是在处理多义词、代词指代和情感表达时，视觉上下文提供了关键的补充信息。

解决学术问题

MSCTD解决了多模态机器翻译在对话场景中的缺失问题，填补了多模态双语对话数据集的空白。通过提供包含视觉上下文和情感标签的大规模对话数据，该数据集促进了多模态聊天翻译和多模态对话情感分析的研究。其意义在于推动了多模态信息融合技术的发展，提升了翻译系统的准确性和情感理解能力。

衍生相关工作

基于MSCTD，研究者们开发了多种多模态聊天翻译和对话情感分析模型。例如，多任务学习模型CA-MCT通过整合视觉特征和情感特征，显著提升了翻译质量。此外，MSCTD还促进了多模态对话情感分析的研究，推动了如DialogueRNN和BERT等先进模型在该领域的应用。这些衍生工作不仅提升了翻译和情感分析的准确性，还为多模态信息处理技术的发展提供了新的方向。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

UAVDT Dataset

The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.

datasetninja.com 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

Photovoltaic power plant data

包括经纬度、电源板模型、NWP等信息。

github 收录