propicto-orfeo

Hugging Face2024-12-17 更新2024-12-18 收录

下载链接：

https://huggingface.co/datasets/Propicto/propicto-orfeo

下载链接

链接失效反馈

官方服务：

资源简介：

Propicto-orféo是一个法语数据集，包含对齐的语音ID、转录和图标（图标对应于与ARASAAC图标关联的标识符）。该数据集从CEFC-Orféo语料库创建，旨在用于训练语音到图标和文本到图标的翻译模型。数据集分为训练、验证和测试集，包含三个CSV文件，分别包含231,374、28,796和29,009个话语。每个文件包含唯一的标识符、音频剪辑的转录、ARASAAC的图标ID序列和关键字序列。数据集的创建基于特定的语法规则和字典，用于将法语口语转录转换为相应的图标序列。

创建时间：

2024-12-11

原始信息汇总

Propicto-orféo

📝 数据集描述

Propicto-orféo 是一个法语数据集，包含对齐的语音ID、转录和图标（图标对应于与ARASAAC图标关联的标识符）。该数据集是从CEFC-Orféo语料库创建的，并在LREC-Coling 2024的研究论文 "A Multimodal French Corpus of Aligned Speech, Text, and Pictogram Sequences for Speech-to-Pictogram Machine Translation" 中进行了介绍。数据集被分为训练集、验证集和测试集。

Propicto-orféo 包含三个CSV文件：train、valid和test，统计信息如下：

Split	Number of utterances
train	231 374
valid	28 796
test	29 009

策划者: Cécile MACAIRE
资助方: PROPICTO ANR-20-CE93-0005
语言(NLP): 法语
许可证: CC-BY-NC-SA-4.0

⚒️ 数据集结构

每个文件包含以下信息： csv id : 语音的唯一标识符，对应于orféo数据集中的唯一音频剪辑文件（wav格式） text : 音频剪辑的转录 pictos : ARASAAC的图标ID序列 tokens : 与ARASAAC图标ID关联的关键字序列

💡 数据集示例

给定样本： csv id : cefc-cfpb-1000-5-1186 text : tu essayes de mélanger les deux pictos : [6625, 26144, 7074, 5515, 5367] tokens : toi essayer de mélanger à_côté_de

该剪辑来自Orféo子语料库 CFPB, 1000-5，句子ID为1186。
文本是对应的转录，英文为：“you try to mix the two”。
Pictos是图标ID序列，每个图标可以从以下地址检索：6625 = https://static.arasaac.org/pictograms/6625/6625_2500.png
Tokens是从特定词典中检索的，可用于训练翻译模型。

数据集来源

💻 用途

Propicto-orféo 旨在用于训练语音到图标和文本到图标的翻译模型。该数据集还可用于微调大型语言模型，以执行图标翻译。

⚙️ 数据集创建

数据集通过应用特定的形式化方法创建，该方法将法语口语转录转换为相应的图标序列。形式化方法包括一组语法规则，用于处理法语中的特定现象（否定、命名实体、代词形式、复数等），以及一个词典，该词典将每个ARASAAC图标ID与一组关键字（tokens）关联。该形式化方法在 LREC 中进行了介绍。

源数据：对话/会议/日常生活情境（口语转录）

偏差、风险和局限性

由于翻译中可能存在错误或遗漏的词语，翻译可能部分不正确。

📌 引用

bibtex @inproceedings{macaire-etal-2024-multimodal, title = "A Multimodal {F}rench Corpus of Aligned Speech, Text, and Pictogram Sequences for Speech-to-Pictogram Machine Translation", author = "Macaire, C{e}cile and Dion, Chlo{e} and Arrigo, Jordan and Lemaire, Claire and Esperan{c{c}}a-Rodier, Emmanuelle and Lecouteux, Benjamin and Schwab, Didier", booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", year = "2024", publisher = "ELRA and ICCL", url = "https://aclanthology.org/2024.lrec-main.76", pages = "839--849", }

@inproceedings{macaire24_interspeech, title = {Towards Speech-to-Pictograms Translation}, author = {Cécile Macaire and Chloé Dion and Didier Schwab and Benjamin Lecouteux and Emmanuelle Esperança-Rodier}, year = {2024}, booktitle = {Interspeech 2024}, pages = {857--861}, doi = {10.21437/Interspeech.2024-490}, issn = {2958-1796}, }

👩‍🏫 数据集卡片作者

Cécile MACAIRE, Chloé DION, Emmanuelle ESPÉRANÇA-RODIER, Benjamin LECOUTEUX, Didier SCHWAB

搜集汇总

数据集介绍

构建方式

Propicto-orféo数据集的构建基于CEFC-Orféo语料库，通过特定的形式化方法将法语口语转录转换为对应的图标序列。该方法包括一套处理法语特定现象（如否定、命名实体、代词形式、复数等）的语法规则，以及一个将ARASAAC图标ID与关键词（tokens）关联的字典。这种形式化方法在LREC 2024会议上进行了详细介绍，确保了数据集的准确性和一致性。

特点

Propicto-orféo数据集的主要特点在于其多模态性，包含了语音、文本和图标的对齐序列，适用于语音到图标和文本到图标的翻译任务。数据集分为训练、验证和测试集，分别包含231,374、28,796和29,009条语句，提供了丰富的资源用于模型训练和评估。此外，数据集的每个条目都包含唯一的语音片段标识符、转录文本、图标序列及其对应的关键词，便于多模态数据的处理和分析。

使用方法

Propicto-orféo数据集主要用于训练和微调语音到图标及文本到图标的翻译模型。用户可以通过提供的CSV文件访问数据，每个文件包含语音片段的唯一标识符、转录文本、图标序列及其对应的关键词。这些数据可用于构建和优化多模态翻译模型，特别是在辅助沟通技术（AAC）领域，帮助模型更好地理解和生成图标序列。

背景与挑战

背景概述

Propicto-orféo数据集是一个专注于法语的多模态数据集，旨在支持语音到图标（Speech-to-Pictogram）和文本到图标（Text-to-Pictogram）的机器翻译任务。该数据集源自CEFC-Orféo语料库，由Cécile MACAIRE等人创建，并在2024年LREC-Coling会议上发表的论文中首次提出。数据集的核心研究问题是如何将法语口语转录与ARASAAC图标序列进行对齐，从而为辅助沟通技术（AAC）领域提供支持。Propicto-orféo的构建得到了PROPICTO ANR-20-CE93-0005项目的资助，其影响力在于为多模态翻译模型提供了丰富的训练资源，特别是在处理复杂语言现象如否定、命名实体和代词形式等方面。

当前挑战

Propicto-orféo数据集在构建过程中面临多项挑战。首先，如何将法语口语转录准确转换为对应的图标序列，涉及到复杂的语法规则和关键词映射问题。其次，数据集的翻译可能存在部分错误或遗漏，这源于图标与词汇之间的不完全匹配。此外，数据集的多样性和代表性也是一个挑战，确保涵盖日常对话、会议等多种场景，以提高模型的泛化能力。最后，如何处理语言中的特殊现象（如否定、复数等），并确保这些现象在图标序列中得到正确表达，也是该数据集面临的重要技术难题。

常用场景

经典使用场景

Propicto-orféo数据集的经典使用场景主要集中在多模态机器翻译领域，特别是语音到象形图（Speech-to-Pictograms）和文本到象形图（Text-to-Pictograms）的翻译任务。通过该数据集，研究者可以训练和微调模型，将法语口语或文本转换为对应的象形图序列，从而为辅助沟通技术（AAC）提供支持。

实际应用

在实际应用中，Propicto-orféo数据集可用于开发辅助沟通工具，帮助有语言障碍的人群通过象形图进行有效沟通。例如，该数据集可以用于构建智能设备或应用程序，将用户的语音或文本输入实时转换为象形图，从而提高沟通的效率和准确性。此外，该数据集还可应用于教育、医疗等领域，为特殊需求群体提供支持。

衍生相关工作

基于Propicto-orféo数据集，研究者已开展了一系列相关工作，特别是在多模态翻译和辅助沟通技术（AAC）领域。例如，有研究提出了基于该数据集的语音到象形图翻译模型，并通过实验验证了其有效性。此外，还有研究探讨了如何利用该数据集微调大规模语言模型，以实现更精准的文本到象形图翻译。这些工作不仅丰富了多模态翻译的理论框架，还为实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集