five

FLiP-data

收藏
Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/BUT-FIT/FLiP-data
下载链接
链接失效反馈
官方服务:
资源简介:
FLiP-data是为FLiP项目预处理的数据集,旨在通过因子化线性投影解释多模态多语言句子嵌入。数据集包含Mozilla Common Voice v15英语的SONAR语音和文本嵌入(形状为[N, 1024]的float32数组)、转录文本以及语音和文本嵌入之间的余弦相似度分数。此外,还包含通过Gemini 2.5 Flash Lite提取的命名实体。数据集分为训练集(约100万条语句)、开发集(约1.6万条)和测试集(约1.6万条)。数据来源于Mozilla Common Voice v15,使用SONAR编码器计算嵌入,音频和转录文本遵循CC BY 4.0许可。适用于句子相似性和特征提取等任务。

FLiP-data is a preprocessed dataset for the FLiP project, aiming to explain multimodal multilingual sentence embeddings through factorized linear projections. The dataset includes SONAR speech and text embeddings (float32 arrays of shape [N, 1024]), transcriptions, and cosine similarity scores between speech and text embeddings from Mozilla Common Voice v15 English. Additionally, it contains named entities extracted via Gemini 2.5 Flash Lite. The dataset is divided into a training set (approximately 1 million utterances), a development set (about 16,000), and a test set (about 16,000). The data originates from Mozilla Common Voice v15, with embeddings computed using the SONAR encoder, and the audio and transcriptions follow the CC BY 4.0 license. It is suitable for tasks such as sentence similarity and feature extraction.
创建时间:
2026-04-20
原始信息汇总

FLiP-data 数据集详情

数据集概述

  • 名称:FLiP-data
  • 项目FLiP(Factorized Linear Projection for Interpreting Multimodal Multilingual Sentence Embeddings)
  • 语言:英语(单语)
  • 许可证:CC BY 4.0
  • 任务类别:句子相似度、特征提取
  • 标签:SONAR、语音嵌入、文本嵌入、Common Voice、可解释性

数据集内容

该数据集包含 Mozilla Common Voice v15 英语 数据集的 SONAR 嵌入和转录文本,分为训练集、开发集和测试集。

文件名称 描述
*_speech_embs.npy SONAR 语音嵌入(float32,形状 [N, 1024]
*_text_embs.npy SONAR 文本嵌入(float32,形状 [N, 1024]
*_sim_scores.npy 配对语音与文本嵌入之间的余弦相似度
*_transcript.txt 参考转录文本(每行一条语句)
*_entities_gemini2.5_flash_lite.jsonl 使用 Gemini 2.5 Flash Lite 提取的命名实体

数据集划分

  • 训练集:约 100 万条语句
  • 开发集:约 1.6 万条语句
  • 测试集:约 1.6 万条语句

数据来源

训练检查点

Hugging Face 仓库 训练数据 嵌入 大小
BUT-FIT/FLiP-en-sonarmcv15/rank-512/ MCV v15 EN SONAR 512 207 MB
BUT-FIT/FLiP-en-sonarmcv15/rank-1024/ MCV v15 EN SONAR 1024 414 MB

使用示例

python import numpy as np

train_speech = np.load("cv_15/en/sonar_embeddings/train_speech_embs.npy") train_text = np.load("cv_15/en/sonar_embeddings/train_text_embs.npy")

参考论文

  • 论文标题:FLiP: Towards understanding and interpreting multimodal multilingual sentence embeddings
  • arXiv2604.18109
搜集汇总
数据集介绍
main_image_url
构建方式
FLiP-data数据集基于Mozilla Common Voice v15英文语料构建,利用SONAR编码器提取语音与文本的嵌入表征,生成了维度为1024的浮点型嵌入向量。数据划分包含约100万条训练样本、1.6万条开发与测试样本。为增强可解释性,还借助Gemini 2.5 Flash Lite模型对转录文本进行命名实体抽取,以JSONL格式呈现。同时,数据集提供了语音与文本嵌入之间的余弦相似度分数,为后续的因子化线性投影模型研究奠定了坚实基础。
特点
该数据集的核心特点在于其多模态对齐与可解释性设计。它不仅包含了语音与文本两种模态的SONAR嵌入向量,还提供了配对样本的相似度度量,使得研究者能够直观评估嵌入空间的语义一致性。此外,预提取的命名实体信息为分析模型如何从嵌入中恢复词汇内容提供了关键线索,显著提升了模型的透明度和可解释性。数据规模的庞大致使模型训练具备充分的统计稳定性。
使用方法
使用者可通过NumPy库便捷加载处理好的嵌入文件,例如利用`np.load()`读取语音与文本的`.npy`格式数据,以支持句子相似度计算与特征提取任务的快速验证。该数据集专为FLiP项目设计,配合其GitHub仓库中的完整训练与评估脚本,可无缝融入因子化线性投影模型的研发流程,实现对预训练多模态嵌入的高效解读与知识发现。
背景与挑战
背景概述
FLiP-data数据集由捷克布尔诺理工大学(BUT)语音与自然语言处理团队于2026年创建,旨在探索多模态多语言句子嵌入的可解释性。该数据集基于Mozilla Common Voice v15英文语料库,利用SONAR编码器提取语音与文本嵌入,为因子化线性投影(FLiP)模型提供标准化预处理数据。核心研究问题在于如何通过简单线性投影从预训练句子嵌入中恢复关键词汇内容,而无需对编码器进行微调。数据集包含约100万条训练样本及相应的开发与测试集,全面覆盖语音嵌入、文本嵌入及余弦相似度分数。FLiP-data的推出为多模态表示学习与模型可解释性研究提供了坚实基础,显著推动了语音与文本嵌入对齐分析的进展。
当前挑战
FLiP-data所解决的核心领域挑战在于多模态句子嵌入的黑箱性质,即如何在不修改预训练编码器的前提下,有效解释语音与文本嵌入中蕴含的词汇语义信息,克服传统嵌入方法缺乏可解释性的问题。在构建过程中,团队面临多重挑战:从大规模Common Voice语料中提取一致的SONAR嵌入需要处理音频与文本的时间对齐精度;命名实体的提取依赖Gemini 2.5 Flash Lite模型,其准确性直接影响下游分析;此外,确保训练、开发与测试集间分布的均衡性,以及海量嵌入数据的存储与计算效率,也是设计中的关键难题。
常用场景
经典使用场景
FLiP-data数据集为多模态与多语言句子嵌入的可解释性研究提供了标准化的数据基准。其核心用途在于训练和评估因子化线性投影(FLiP)模型,该模型通过单一的线性投影从预训练的句子嵌入中恢复词汇内容(关键词),无需对编码器进行微调。数据集中包含了Mozilla Common Voice v15英语子集的SONAR语音与文本嵌入,以及相应的参考转录文本和余弦相似度分数,为建立语音与文本嵌入之间的语义对齐映射关系提供了丰富的实验素材。
实际应用
在实际应用中,FLiP-data所支撑的技术架构具有广阔的前景。例如,在跨语言语音检索系统中,透过FLiP模型可以快速定位与查询文本语义匹配的语音片段,提升检索精度。在语音摘要生成与关键词提取场景下,该数据集训练的线性投影能够从语音嵌入中高效抽取核心内容,辅助构建轻量级的实时语音分析工具。此外,针对语音辅助的学术文献分析、会议记录处理等任务,FLiP-data提供的方法论有助于实现高效的内容索引与语义搜索。
衍生相关工作
FLiP-data的发布催生了一系列延伸研究方向。围绕该数据集的因子化线性投影框架,研究者们进一步探索了低秩分解在跨模态嵌入解释中的泛化能力,推动了诸如多语言关键词发现、弱监督语音片段定位等工作的进展。部分工作将该投影方法应用于更广泛的多模态预训练模型(如mSLAM、HuBERT)的可解释性分析,验证了线性投影策略在不同嵌入空间的普适性。此外,基于该数据集生成的命名实体标注(利用Gemini 2.5 Flash Lite提取)也为融合外部知识的多模态语义理解研究提供了新的实验基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作