multimodal_nli_dataset

Hugging Face2025-09-18 更新2025-09-19 收录

下载链接：

https://huggingface.co/datasets/oist/multimodal_nli_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个多模态和多语言的自然语言推理（NLI）数据集，支持对四种模态组合进行蕴含、矛盾和中立性的分类。数据集包含阿拉伯语、英语、法语、乌尔都语、印地语和中文等语言。数据集由训练集、验证集和测试集组成，提供了文本和音频文件，以及关于前提和假设的模态、语言和来源的详细信息。

创建时间：

2025-09-17

原始信息汇总

数据集概述

基本信息

数据集名称：Multimodal and Multilingual Natural Language Inference Dataset
许可证：CC BY-NC 4.0
任务类别：句子相似性
支持语言：文本支持阿拉伯语、英语、法语、德语、西班牙语、意大利语、日语、韩语、荷兰语、波兰语、葡萄牙语、俄语、土耳其语、中文、印地语和乌尔都语；语音支持阿拉伯语、英语和法语

数据集详情

论文：Beyond Similarity Scoring: Detecting Entailment and Contradiction in Multilingual and Multimodal Contexts, Interspeech 2025
描述：支持多语言和多模态自然语言推理（NLI），涵盖四种模态组合：文本-文本（T-T）、文本-语音（T-S）、语音-文本（S-T）和语音-语音（S-S）
标签：
- 0：蕴含（entailment）
- 1：矛盾（contradiction）
- 2：中立（neutral）

数据集结构

特征

premise_text：字符串
premise_audio：字符串
hypothesis_text：字符串
hypothesis_audio：字符串
label：类别标签
premise_modality：字符串
hypothesis_modality：字符串
premise_language：字符串
hypothesis_language：字符串
premise_source：字符串
hypothesis_source：字符串

数据划分

训练集：1,181,133个样本，254,373,188字节
验证集：91,010个样本，24,873,676字节
测试集：141,806个样本，40,669,962字节
总下载大小：163,298,146字节
总数据集大小：319,916,826字节

数据来源

文本来源：XNLI、SNLI
语音来源：FLEURS录音、TTS生成语音（Coqui TTS）
其他来源：Mistral生成（通过微调的Mistral 7B模型生成）

音频下载

FLEURS录音：https://drive.google.com/file/d/1RdTbeLyYT6f7SzgEPMwRppX33L5GRfUa/view?usp=sharing
TTS生成语音：https://drive.google.com/file/d/17h5LUJ7FFnoQOt8GETMpUUytPjOB_tRA/view?usp=sharing

创建信息

创建者：Othman Istaiteh、Salima Mdhaffar、Yannick Estève
所属机构：LIA Lab, Université d’Avignon, France
创建理由：为多语言和多模态自然语言推理提供基准测试
数据处理：音频路径存储为字符串，可通过Hugging Face Audio特征动态加载

使用限制

偏见与风险：可能存在源数据集的偏见，TTS生成语音的说话人多样性有限
许可证限制：非商业许可证限制下游使用

引用信息

BibTeX

bibtex @inproceedings{istaiteh2025beyond, title={Beyond Similarity Scoring: Detecting Entailment and Contradiction in Multilingual and Multimodal Contexts}, author={Istaiteh, Othman and Mdhaffar, Salima and Est{`e}ve, Yannick}, booktitle={Proc. Interspeech 2025}, pages={286--290}, year={2025} }

APA

Istaiteh, O., Mdhaffar, S., & Estève, Y. (2025). Beyond Similarity Scoring: Detecting Entailment and Contradiction in Multilingual and Multimodal Contexts. Interspeech 2025

联系方式

作者：Othman Istaiteh、Salima Mdhaffar、Yannick Estève
邮箱：othmanistaiteh@gmail.com

搜集汇总

数据集介绍

构建方式

该数据集整合了多个权威来源，包括XNLI的多语言文本对、SNLI的英文图像描述衍生数据、FLEURS的自然语音录音，以及通过Coqui TTS生成的合成语音和微调Mistral 7B模型生成的推理对。数据处理过程中，音频路径以字符串形式存储，支持通过Hugging Face音频特征动态加载，确保了多模态数据的灵活访问与高效管理。

特点

数据集涵盖文本与语音的四种模态组合，支持跨十五种语言的文本处理和三种语言的语音分析，为多模态自然语言推理研究提供了丰富资源。其独特之处在于每个前提和假设均可独立呈现为文本或语音形式，突破了传统单模态研究的局限，为探索语言与语音间的逻辑关系创造了条件。

使用方法

研究人员可直接加载数据集中的训练、验证和测试分割，利用预合并的数据文件进行模型训练与评估。对于音频模态，需额外下载并解压FLEURS录音和TTS生成语音文件，通过Hugging Face音频特征将存储的路径转换为可处理的音频数组，从而实现端到端的多模态推理实验。

背景与挑战

背景概述

多模态自然语言推理数据集由法国阿维尼翁大学LIA实验室的Othman Istaiteh等人于2025年构建，致力于解决跨语言与跨模态语境下的逻辑关系识别问题。该数据集整合文本与语音两种模态，涵盖包括中文、阿拉伯语、英语等16种语言，支持“蕴含”“矛盾”和“中立”三类推理任务。其创新性在于突破了传统文本推理的局限，为多模态语义理解、跨语言迁移学习等研究方向提供了重要基础资源，对推动语音-文本联合建模与低资源语言推理具有显著影响力。

当前挑战

该数据集核心挑战在于解决多模态与多语言自然语言推理中的语义对齐与逻辑一致性判定问题，尤其需应对不同模态（文本与语音）和语言之间的表征差异与噪声干扰。构建过程中面临多重困难：一是需协调来自SNLI、XNLI、FLEURS等多个异构数据源的标注标准与格式；二是须处理多语言语音数据的采集与合成，包括真实录音与TTS生成语音的质量控制；三是需确保跨模态样本在语义层面的可比性与标签可靠性，尤其在语音-文本混合模态中需克服声学特征与语义符号之间的映射复杂性。

常用场景

经典使用场景

在自然语言推理研究领域，该数据集被广泛应用于构建跨模态语义理解模型。研究者通过文本-文本、文本-语音、语音-文本及语音-语音四种模态组合，训练模型识别前提与假设之间的蕴含、矛盾和中立关系。这种多模态架构显著提升了模型对复杂语义关系的捕捉能力，特别是在处理低资源语言时表现出卓越的泛化性能。

解决学术问题

该数据集有效解决了多模态自然语言推理中的核心学术问题，包括跨语言语义对齐、模态间信息融合以及低资源语言推理瓶颈。通过整合15种文本语言和3种语音语言，它为研究社区提供了检验模型跨语言泛化能力的基准，同时推动了语音-文本联合表征学习技术的发展，填补了传统纯文本NLI模型在语音模态处理上的空白。

衍生相关工作

基于该数据集衍生的经典工作包括跨模态注意力机制改进、多语言语音-文本对齐模型以及低资源NLI迁移学习框架。这些研究不仅推动了XLM-R、mBERT等预训练模型的多模态扩展，还催生了如SpeechBERT、AudioNLI等专门架构，为后续的MMNLI2025评测任务提供了核心训练资源与评估基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集