five

propicto-orfeo

收藏
Hugging Face2024-12-17 更新2024-12-18 收录
下载链接:
https://huggingface.co/datasets/Propicto/propicto-orfeo
下载链接
链接失效反馈
官方服务:
资源简介:
Propicto-orféo是一个法语数据集,包含对齐的语音ID、转录和图标(图标对应于与ARASAAC图标关联的标识符)。该数据集从CEFC-Orféo语料库创建,旨在用于训练语音到图标和文本到图标的翻译模型。数据集分为训练、验证和测试集,包含三个CSV文件,分别包含231,374、28,796和29,009个话语。每个文件包含唯一的标识符、音频剪辑的转录、ARASAAC的图标ID序列和关键字序列。数据集的创建基于特定的语法规则和字典,用于将法语口语转录转换为相应的图标序列。
创建时间:
2024-12-11
原始信息汇总

Propicto-orféo

📝 数据集描述

Propicto-orféo 是一个法语数据集,包含对齐的语音ID、转录和图标(图标对应于与ARASAAC图标关联的标识符)。该数据集是从CEFC-Orféo语料库创建的,并在LREC-Coling 2024的研究论文 "A Multimodal French Corpus of Aligned Speech, Text, and Pictogram Sequences for Speech-to-Pictogram Machine Translation" 中进行了介绍。数据集被分为训练集、验证集和测试集。

Propicto-orféo 包含三个CSV文件:train、valid和test,统计信息如下:

Split Number of utterances
train 231 374
valid 28 796
test 29 009

⚒️ 数据集结构

每个文件包含以下信息: csv id : 语音的唯一标识符,对应于orféo数据集中的唯一音频剪辑文件(wav格式) text : 音频剪辑的转录 pictos : ARASAAC的图标ID序列 tokens : 与ARASAAC图标ID关联的关键字序列

💡 数据集示例

给定样本: csv id : cefc-cfpb-1000-5-1186 text : tu essayes de mélanger les deux pictos : [6625, 26144, 7074, 5515, 5367] tokens : toi essayer de mélanger à_côté_de

  • 该剪辑来自Orféo子语料库 CFPB, 1000-5,句子ID为1186。
  • 文本是对应的转录,英文为:“you try to mix the two”。
  • Pictos是图标ID序列,每个图标可以从以下地址检索:6625 = https://static.arasaac.org/pictograms/6625/6625_2500.png
  • Tokens是从特定词典中检索的,可用于训练翻译模型。

数据集来源

💻 用途

Propicto-orféo 旨在用于训练语音到图标和文本到图标的翻译模型。该数据集还可用于微调大型语言模型,以执行图标翻译。

⚙️ 数据集创建

数据集通过应用特定的形式化方法创建,该方法将法语口语转录转换为相应的图标序列。形式化方法包括一组语法规则,用于处理法语中的特定现象(否定、命名实体、代词形式、复数等),以及一个词典,该词典将每个ARASAAC图标ID与一组关键字(tokens)关联。该形式化方法在 LREC 中进行了介绍。

源数据:对话/会议/日常生活情境(口语转录)

偏差、风险和局限性

由于翻译中可能存在错误或遗漏的词语,翻译可能部分不正确。

📌 引用

bibtex @inproceedings{macaire-etal-2024-multimodal, title = "A Multimodal {F}rench Corpus of Aligned Speech, Text, and Pictogram Sequences for Speech-to-Pictogram Machine Translation", author = "Macaire, C{e}cile and Dion, Chlo{e} and Arrigo, Jordan and Lemaire, Claire and Esperan{c{c}}a-Rodier, Emmanuelle and Lecouteux, Benjamin and Schwab, Didier", booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", year = "2024", publisher = "ELRA and ICCL", url = "https://aclanthology.org/2024.lrec-main.76", pages = "839--849", }

@inproceedings{macaire24_interspeech, title = {Towards Speech-to-Pictograms Translation}, author = {Cécile Macaire and Chloé Dion and Didier Schwab and Benjamin Lecouteux and Emmanuelle Esperança-Rodier}, year = {2024}, booktitle = {Interspeech 2024}, pages = {857--861}, doi = {10.21437/Interspeech.2024-490}, issn = {2958-1796}, }

👩‍🏫 数据集卡片作者

Cécile MACAIRE, Chloé DION, Emmanuelle ESPÉRANÇA-RODIER, Benjamin LECOUTEUX, Didier SCHWAB

搜集汇总
数据集介绍
main_image_url
构建方式
Propicto-orféo数据集的构建基于CEFC-Orféo语料库,通过特定的形式化方法将法语口语转录转换为对应的图标序列。该方法包括一套处理法语特定现象(如否定、命名实体、代词形式、复数等)的语法规则,以及一个将ARASAAC图标ID与关键词(tokens)关联的字典。这种形式化方法在LREC 2024会议上进行了详细介绍,确保了数据集的准确性和一致性。
特点
Propicto-orféo数据集的主要特点在于其多模态性,包含了语音、文本和图标的对齐序列,适用于语音到图标和文本到图标的翻译任务。数据集分为训练、验证和测试集,分别包含231,374、28,796和29,009条语句,提供了丰富的资源用于模型训练和评估。此外,数据集的每个条目都包含唯一的语音片段标识符、转录文本、图标序列及其对应的关键词,便于多模态数据的处理和分析。
使用方法
Propicto-orféo数据集主要用于训练和微调语音到图标及文本到图标的翻译模型。用户可以通过提供的CSV文件访问数据,每个文件包含语音片段的唯一标识符、转录文本、图标序列及其对应的关键词。这些数据可用于构建和优化多模态翻译模型,特别是在辅助沟通技术(AAC)领域,帮助模型更好地理解和生成图标序列。
背景与挑战
背景概述
Propicto-orféo数据集是一个专注于法语的多模态数据集,旨在支持语音到图标(Speech-to-Pictogram)和文本到图标(Text-to-Pictogram)的机器翻译任务。该数据集源自CEFC-Orféo语料库,由Cécile MACAIRE等人创建,并在2024年LREC-Coling会议上发表的论文中首次提出。数据集的核心研究问题是如何将法语口语转录与ARASAAC图标序列进行对齐,从而为辅助沟通技术(AAC)领域提供支持。Propicto-orféo的构建得到了PROPICTO ANR-20-CE93-0005项目的资助,其影响力在于为多模态翻译模型提供了丰富的训练资源,特别是在处理复杂语言现象如否定、命名实体和代词形式等方面。
当前挑战
Propicto-orféo数据集在构建过程中面临多项挑战。首先,如何将法语口语转录准确转换为对应的图标序列,涉及到复杂的语法规则和关键词映射问题。其次,数据集的翻译可能存在部分错误或遗漏,这源于图标与词汇之间的不完全匹配。此外,数据集的多样性和代表性也是一个挑战,确保涵盖日常对话、会议等多种场景,以提高模型的泛化能力。最后,如何处理语言中的特殊现象(如否定、复数等),并确保这些现象在图标序列中得到正确表达,也是该数据集面临的重要技术难题。
常用场景
经典使用场景
Propicto-orféo数据集的经典使用场景主要集中在多模态机器翻译领域,特别是语音到象形图(Speech-to-Pictograms)和文本到象形图(Text-to-Pictograms)的翻译任务。通过该数据集,研究者可以训练和微调模型,将法语口语或文本转换为对应的象形图序列,从而为辅助沟通技术(AAC)提供支持。
实际应用
在实际应用中,Propicto-orféo数据集可用于开发辅助沟通工具,帮助有语言障碍的人群通过象形图进行有效沟通。例如,该数据集可以用于构建智能设备或应用程序,将用户的语音或文本输入实时转换为象形图,从而提高沟通的效率和准确性。此外,该数据集还可应用于教育、医疗等领域,为特殊需求群体提供支持。
衍生相关工作
基于Propicto-orféo数据集,研究者已开展了一系列相关工作,特别是在多模态翻译和辅助沟通技术(AAC)领域。例如,有研究提出了基于该数据集的语音到象形图翻译模型,并通过实验验证了其有效性。此外,还有研究探讨了如何利用该数据集微调大规模语言模型,以实现更精准的文本到象形图翻译。这些工作不仅丰富了多模态翻译的理论框架,还为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作