llmpicto-commonvoice

Hugging Face2026-01-30 更新2026-02-02 收录

下载链接：

https://huggingface.co/datasets/benoitfavre/llmpicto-commonvoice

下载链接

链接失效反馈

官方服务：

资源简介：

LLMPicto-commonvoice 是一个包含对齐的语音-ID/转录/象形图（象形图对应于与 ARASAAC 象形图相关的标识符）的法语数据集。该数据集基于 CommonVoice-15.0 法语语料库创建，通过 Propicto-commonvoice 的句子生成。数据集通过使用 gpt-oss-120b LLM 将每个输入句子与一系列词元关联，然后通过词典将词元映射到 ARASAAC ID 来创建。数据集包含三个 Parquet 文件：train、valid 和 test，分别包含 516,344、16,084 和 16,124 个样本。每个样本包含唯一 ID、原始句子以及象形图列表，每个象形图包含单词、ARASAAC 的 picto ID、匹配的单词和定义以及匹配分数。数据集适用于训练结合语音、文本和象形图的 Omni 模型。数据集由 Benoit Favre 策划，使用 cc0-1.0 许可证发布。

创建时间：

2026-01-27

搜集汇总

数据集介绍

构建方式

在增强与替代沟通领域，LLMPicto-commonvoice数据集的构建体现了多模态语言资源的创新整合。该数据集源自CommonVoice-15.0法语语料库，通过精心设计的流程将语音转录文本转化为象形图序列。具体而言，研究团队利用gpt-oss-120b大型语言模型对输入句子进行解析，生成对应的英语词元序列及其定义；随后通过基于ARASAAC象形图库构建的词典进行映射匹配，采用Sentence-transformers模型计算定义间的余弦相似度以确定最佳象形图标识符。整个流程包含严格的过滤机制，确保数据对齐的准确性与一致性。

特点

该数据集的核心特征在于其独特的结构化多模态表示。每个数据样本不仅包含原始法语句子，还附有对应的象形图序列，其中每个象形图均提供词元、ARASAAC标识符、匹配词项、定义文本及相似度评分等多维度信息。这种设计使得数据集能够同时捕捉语言表层表达与视觉概念表征之间的复杂对应关系。数据规模涵盖超过50万条训练样本，并遵循标准划分提供验证集与测试集，为模型训练与评估提供了坚实基础。

使用方法

LLMPicto-commonvoice主要应用于训练融合语音、文本与象形图的多模态智能系统。研究人员可通过加载标准化的parquet格式文件，直接获取对齐的三元组数据。在使用过程中，可依据任务需求灵活提取句子、象形图序列及其元数据，例如利用匹配评分筛选高质量样本，或结合象形图定义进行语义分析。该数据集为开发面向增强沟通技术的Omni模型提供了关键资源，支持端到端的多模态表示学习与跨模态翻译任务。

背景与挑战

背景概述

LLMPicto-commonvoice数据集由Benoit Favre于近期构建，其核心研究问题聚焦于增强与替代沟通领域中的多模态对齐技术。该数据集源自CommonVoice-15.0法语语料库，通过大型语言模型gpt-oss-120b将法语句子转化为英语词元序列，并映射至ARASAAC象形图标识符，旨在为结合语音、文本与象形图的Omni模型提供训练资源。这一创新工作推动了无障碍通信技术的发展，为语言障碍群体提供了更直观的交互支持，并在多模态机器学习领域拓展了新的研究方向。

当前挑战

该数据集致力于解决增强与替代沟通中自然语言到象形图序列的精确转换挑战，其复杂性体现在语义对齐与视觉符号匹配的固有困难。在构建过程中，面临多重技术障碍：大型语言模型可能输出无效JSON格式或生成与输入数量不匹配的结果，导致数据实例被过滤；模型在传达句子含义时可能出现词元遗漏或冗余插入；当词元未存在于预设词典时，替代匹配策略可能引入不恰当的象形图选择；此外，词典中基于WordNet同义词集与图像描述的定义可能存在误导性，影响匹配质量。这些挑战共同制约了数据集的可靠性与应用广度。

常用场景

经典使用场景

在增强与替代沟通领域，LLMPicto-commonvoice数据集为多模态语言处理提供了关键资源。该数据集将法语句子与ARASAAC象形图标识符对齐，经典应用场景包括训练能够同时理解语音、文本和象形符号的Omni模型。研究者利用其大规模对齐数据，开发跨模态翻译系统，旨在将自然语言句子自动转换为象形图序列，从而辅助语言障碍人士进行沟通。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在多模态融合与辅助技术领域。例如，研究者利用其训练端到端的语音到象形图翻译模型，探索大规模语言模型在象形图序列生成中的迁移能力。同时，基于其对齐数据，出现了改进象形图匹配算法的工作，如结合语义嵌入提升匹配精度，以及开发跨语言象形图转换系统，扩展至其他语种的应用场景。

数据集最近研究