five

MER2023|机器学习数据集|自然语言处理数据集

收藏
arXiv2024-04-21 更新2024-07-31 收录
机器学习
自然语言处理
下载链接:
https://github.com/zeroQiaoba/MERTools
下载链接
链接失效反馈
资源简介:
该数据集专注于中文语言环境,可用作多标签学习、噪声鲁棒性和半监督学习研究的基准数据集。
创建时间:
2024-01-07
原始信息汇总

数据集概述

MER2023

数据集

  • 下载数据集需填写EULA并发送到lianzheng2016@ia.ac.cn。
  • 参与者仅可将数据集用于学术研究,不得编辑或上传样本至互联网。

基线

MERBench

数据集

MER2024

数据集

  • 下载数据集需填写EULA并发送到merchallenge.contact@gmail.com。
  • 参与者仅可将数据集用于学术研究,不得编辑或上传样本至互联网。

基线

AI搜集汇总
数据集介绍
main_image_url
构建方式
MER2023数据集的构建基于对中国语言环境的情感识别需求,旨在为多标签学习、噪声鲁棒性和半监督学习提供基准数据集。该数据集通过从互联网上收集大量电影和电视剧片段,并使用多种工具(如FFmpeg、EasyOCR、Silero VAD等)进行视频分割和过滤,确保视频片段包含完整的情感表达内容。数据标注过程包括情感标注、一致性检查、可靠性检查和情感维度标注,确保标注结果的准确性和一致性。数据集最终分为三个子集:多标签子集、噪声子集和未标注子集,分别用于研究离散和维度标签的相关性、噪声鲁棒性以及半监督学习。
特点
MER2023数据集的主要特点包括:1)多标签标注,支持离散情感和维度情感的研究;2)噪声子集,用于评估噪声环境下的情感识别鲁棒性;3)未标注子集,适用于半监督学习研究。此外,数据集的标注过程经过多轮验证,确保标注结果的可靠性和一致性。数据集的情感分布不均衡,中性、愤怒、快乐和悲伤情感占比较高,符合现有情感数据集的特征。
使用方法
MER2023数据集可用于多模态情感识别的研究,特别是在多标签学习、噪声鲁棒性和半监督学习方向。研究者可以通过该数据集评估其算法在不同实验设置下的性能,并进行公平比较。数据集提供了多种模态的特征提取方法,包括视觉、音频和文本模态,研究者可以根据需求选择合适的特征进行情感识别任务。此外,数据集还提供了基准模型和评估指标,便于研究者快速上手并进行算法验证。
背景与挑战
背景概述
MER2023数据集是由中国科学院自动化研究所的多模态人工智能系统国家重点实验室的研究团队开发的,旨在为多模态情感识别(Multimodal Emotion Recognition, MER)提供一个统一的评估基准。该数据集的构建源于现有算法在特征提取、评估方式和实验设置上的不一致性,这些不一致性严重阻碍了该领域的发展。MER2023数据集专注于中文语言环境,旨在为多标签学习、噪声鲁棒性和半监督学习提供基准数据集。该数据集的创建不仅揭示了多模态情感识别中关键技术(如特征选择、多模态融合、鲁棒性分析等)的贡献,还为后续研究提供了清晰的指导方向。
当前挑战
MER2023数据集的构建面临多重挑战。首先,多模态情感识别的核心问题是如何有效整合视频、音频和文本等多源信息,以准确识别人类的情感状态。其次,数据集的构建过程中,研究人员需要解决多标签学习、噪声鲁棒性和半监督学习等领域的具体问题。此外,数据集的标注过程也面临挑战,包括情感标注的一致性检查、可靠性检查以及情感维度的标注等。最后,多模态情感识别的公平比较需要统一的实验设置,而现有的数据集在特征提取和评估方式上的不一致性使得不同算法的比较变得困难。
常用场景
经典使用场景
MER2023数据集的经典应用场景主要集中在多模态情感识别领域,尤其是在中文语言环境下的情感分析任务中。该数据集通过整合视频、音频和文本等多模态信息,为研究人员提供了一个统一的评估基准,用于探索特征选择、多模态融合、跨语料库性能和鲁棒性分析等关键技术。通过MER2023数据集,研究人员可以评估不同算法在多标签学习、噪声鲁棒性和半监督学习等方向上的表现,从而推动多模态情感识别技术的发展。
实际应用
MER2023数据集在实际应用中具有广泛的应用场景,尤其是在人机交互、情感分析和用户体验优化等领域。例如,在智能客服系统中,MER2023可以帮助识别用户的情感状态,从而提供更加个性化和情感化的服务。此外,在社交媒体分析、心理健康监测和教育辅导等领域,MER2023也可以用于情感识别和情感分析,帮助系统更好地理解用户的情感需求,提升用户体验。
衍生相关工作
MER2023数据集的发布催生了一系列相关的经典工作。首先,基于该数据集的多模态情感识别基准MERBench为后续研究提供了统一的评估框架,促进了多模态情感识别技术的公平比较和进一步发展。其次,MER2023在多标签学习、噪声鲁棒性和半监督学习等方向上的应用,推动了这些领域的研究进展。此外,MER2023还激发了对多模态融合策略、特征选择和跨语料库性能等问题的深入研究,为多模态情感识别领域提供了新的研究方向和方法论。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录

中国人口普查分县数据(2000、2010、2020年)

中国人口普查分县数据(2000、2010、2020年)数据集是中国第五次、第六次、第七次人口普查分县数据

国家地球系统科学数据中心 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录