Propicto

Name: Propicto
Creator: ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
Published: 2026-02-11 12:21:47
License: 暂无描述

DataCite Commons2026-02-11 更新2026-05-04 收录

下载链接：

https://www.ortolang.fr/market/item/propicto/v1.1

下载链接

链接失效反馈

官方服务：

资源简介：

Le corpus Propicto est un corpus de données alignées parole/texte/pictogrammes (les pictogrammes correspondent à l'identifiant lié à un pictogramme ARASAAC) en français. Il contient également un corpus simplifié parole/texte/texte_simplifié.Ce corpus a été créé dans le cadre du projet bilatéral franco-suisse PROPICTO, financé par l'Agence National de la Recherche (ANR-20-CE93-0005) et le Fonds National Suisse de la recherche scientifique (N°197864). Ce projet est porté par le Laboratoire d'Informatique de Grenoble (LIG), Université Grenoble Alpes (UGA) et le département de Traitement Informatique Multilingue (TIM), Université de Genève. Retrouvez plus d'informations sur ce site : https://propicto.unige.ch/Le corpus se découpe en trois sous-corpus :- propicto-orfeo- propicto-eval- propicto-orfeo-simplePropicto-orfeo a été construit à partir du Corpus d'Etude pour le Français Contemporain (CEFC) qui contient les transcriptions alignées texte/parole pour un ensemble de 12 corpus sources. Nous avons découpé chaque corpus par phrase, puis, nous avons appliqué une grammaire et un lexique pour récupérer la séquence de pictogrammes liée à la transcription. Propicto-orfeo contient 290 036 segments audio pour un total de 233 h. Une description des fichiers de données, ainsi que les statistiques sont décrites dans la documentation.Propicto-eval contient un ensemble de textes alignés avec leur traduction en pictogrammes ARASAAC. Les textes sont issus d'histoires pour enfants, de poèmes, de chansons et de phrases médicales (récupérées auprès de Magali Norré). Une campagne d'enregistrements a permis de récupérer la parole associée. Le corpus comprend 859 phrases uniques, pour un total de 3 011 phrases enregistrées par 62 locuteurs.Propicto-orfeo-simple est un ensemble de données qui met en correspondance les fichiers audio et les transcriptions d'Orféo-CEFC avec des équivalents simplifiés élaborés par des experts humains. Ce corpus a été créé pour évaluer les systèmes de simplification automatique de la parole spontanée. Il contient 100 segments audio, avec, pour chaque, deux simplifications réalisés par des experts.

提供机构：

ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr

创建时间：

2026-02-11

5,000+

优质数据集

54 个

任务类型

进入经典数据集