five

多模态情感聊天翻译数据集(MSCTD)|多模态翻译数据集|情感分析数据集

收藏
arXiv2022-02-28 更新2024-06-21 收录
多模态翻译
情感分析
下载链接:
https://github.com/XL2248/MSCTD
下载链接
链接失效反馈
资源简介:
多模态情感聊天翻译数据集(MSCTD)由北京交通大学和腾讯微信AI模式识别中心共同创建,包含17,841个多模态双语对话,总计173,240个<英语语句, 中文/德语语句, 图像, 情感>四元组。数据集通过自动和人工标注两个步骤构建,确保了数据的质量和多样性。每个语句对都与反映当前对话场景的视觉上下文相对应,并标注有情感标签。MSCTD不仅用于多模态聊天翻译研究,还为多模态对话情感分析提供了新的基准,旨在通过整合对话历史和视觉上下文,生成更准确的翻译,并解决多模态机器翻译在对话中的挑战。
提供机构:
北京交通大学北京交通数据分析与挖掘重点实验室
创建时间:
2022-02-28
AI搜集汇总
数据集介绍
main_image_url
构建方式
多模态情感聊天翻译数据集(MSCTD)的构建基于OpenViDial数据集,该数据集包含与图像对应的单语(英语)话语。为了构建MSCTD,研究团队首先对OpenViDial中的英语话语进行了校正,并为其标注了相应的中文和德语翻译以及情感标签。具体步骤包括自动标注和人工标注两个阶段。自动标注阶段利用构建的双语字幕数据库,通过完美匹配英语字幕来选择中文翻译,约有78.57%的原始英语话语被成功配对。人工标注阶段则由三位精通英语的中国研究生根据标注规则进行,确保翻译和情感标签的准确性。
特点
MSCTD数据集的显著特点在于其多模态性和情感标注的细致性。该数据集包含了142,871对英语-中文话语和30,370对英语-德语话语,每对话语均附有反映当前对话场景的视觉上下文,并标注了情感标签(积极、中性、消极)。此外,MSCTD还提供了两个新的多模态对话情感分析基准,进一步丰富了数据集的应用场景。
使用方法
MSCTD数据集可广泛应用于多模态机器翻译和对话情感分析研究。研究者可以利用该数据集训练和评估多模态翻译模型,通过融合对话历史和视觉上下文信息,提升翻译的准确性。同时,MSCTD的情感标注特性使其成为对话情感分析任务的理想数据集,研究者可以探索视觉信息和对话历史对情感分类的影响,推动多模态对话情感分析领域的发展。
背景与挑战
背景概述
多模态情感聊天翻译数据集(MSCTD)由北京交通大学和腾讯微信人工智能中心的研究团队共同创建,旨在解决多模态机器翻译在对话中的应用问题。该数据集包含了142,871对英汉对话和30,370对英德对话,每对对话都附有情感标签和视觉上下文信息。MSCTD的构建标志着多模态对话翻译研究的一个重要里程碑,为研究者提供了一个丰富的资源来探索对话历史和视觉信息在翻译中的作用。
当前挑战
MSCTD在构建过程中面临多项挑战。首先,多模态对话翻译本身就是一个复杂的问题,需要同时处理文本和视觉信息,这增加了模型的复杂性和计算需求。其次,数据集的标注工作涉及多语言和多模态的精确对齐,确保情感标签和视觉上下文的一致性是一个技术难题。此外,如何有效地融合多模态信息以提高翻译的准确性和情感识别的精度,也是当前研究面临的主要挑战。
常用场景
经典使用场景
多模态情感聊天翻译数据集(MSCTD)在多模态机器翻译和文本聊天翻译领域中具有经典应用场景。该数据集通过整合对话历史和视觉上下文,旨在生成更准确的翻译。具体应用包括在多语言对话中,利用视觉信息和对话历史来辅助翻译,特别是在处理多义词、代词指代和情感表达时,视觉上下文提供了关键的补充信息。
解决学术问题
MSCTD解决了多模态机器翻译在对话场景中的缺失问题,填补了多模态双语对话数据集的空白。通过提供包含视觉上下文和情感标签的大规模对话数据,该数据集促进了多模态聊天翻译和多模态对话情感分析的研究。其意义在于推动了多模态信息融合技术的发展,提升了翻译系统的准确性和情感理解能力。
衍生相关工作
基于MSCTD,研究者们开发了多种多模态聊天翻译和对话情感分析模型。例如,多任务学习模型CA-MCT通过整合视觉特征和情感特征,显著提升了翻译质量。此外,MSCTD还促进了多模态对话情感分析的研究,推动了如DialogueRNN和BERT等先进模型在该领域的应用。这些衍生工作不仅提升了翻译和情感分析的准确性,还为多模态信息处理技术的发展提供了新的方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录