five

MPF

收藏
DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/mpf/v3
下载链接
链接失效反馈
官方服务:
资源简介:
MPF est un corpus - toujours ouvert - qui a été recueilli en région parisienne depuis 2010, auprès de populations « jeunes » connaissant des contacts multiculturels réguliers. La dénomination anglaise est due au contexte de son lancement, en 2010 : un projet franco-britannique (ANR-FRBR-09-037-01, 2010-2014). Sorti de ce cadre en 2014, il a été soutenu par la DGLFLF (budgets 2014, 2016, 2018, 2019), par Ortolang (budget 2016) et par le GTRC canadien Le français à la mesure d'un continent (F. Martineau dir., 2010-2017) Ce corpus vise à documenter des évolutions en cours dans le français, l’émergence d’un vernaculaire urbain contemporain, ainsi que les effets sur le français du contact avec les langues de l’immigration. Le principe privilégié pour le recueil a été la proximité communicative : aucun enregistrement n’a été fait avec des inconnus (liens de réseau, histoire conversationnelle antérieure). C’est pourquoi le recueil est le fruit du travail de 24 enquêteurs (dont le prénom engage le titre de l’enquête), qui ont joint 230 locuteurs différents, provenant de 28 communes d’Ile-de-France et de 4 arrondissements parisiens. En fonction de leurs caractéristiques linguistiques et langagières audibles (et non sur des critères socio-démographiques), les enregistrements ont été classés en 3 catégories : entretiens traditionnels, entretiens de proximité et événements écologiques (sans enquêteur). Le corpus recueilli comporte 139 enregistrements en février 2019, de durées entre 6 et 153 mn. Plus de 1 200 000 mots ont été transcrits sous Praat (cf. conventions de transcription), pour 78 heures d’enregistrements, transcrits, révisés plusieurs fois, traduits quand il y a lieu, anonymisés. Le corpus a fait l’objet de 69 publications (voir fichier pdf des références bibliographiques).Chacune des enquêtes correspond à quatre catégories de fichiers dans le corpus : - le fichier son (.wav)- la transcription (.TextGrid)- un fichier de métadonnées (.txt)- une ou des fiche(s) signalétique(s) pour chaque locuteur (dans la mesure du possible)Il est à remarquer que les fiches signalétiques correspondant aux enquêteurs ont des noms qui commencent par "0_Enq_sign_"Le dossier "MPF_TextGrids_et_metadonnees_complètes" contient l'ensemble du corpus (transcriptions au format .TextGrid, fichiers son (au format .wav) et fiches métadonnées). On peut consulter les transcriptions (au format .TextGrid) alignées sur le son avec le logiciel Praat (téléchargement gratuit en suivant ce lien)Pour avoir un aperçu du contenu des transcriptions, des versions docx (Word) sont disponibles dans le dossier "MPF_Docx".Un échantillon de tour de parole est écoutable et consultable dans le dossier PetitExemple : fichiers 0_Adel2_et_tout
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作