MPF
收藏DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/mpf/v4.1
下载链接
链接失效反馈官方服务:
资源简介:
Conseil scientifiqueFrançoise Gadet (directrice), Emmanuelle Guérin, Amal Guha, Anaïs Moreno Kerdreux, RobertoPaternostro.MPF
est un corpus qui a été recueilli en région
parisienne depuis 2010, auprès de populations « jeunes » connaissant des
contacts multiculturels réguliers. La dénomination anglaise est due au
contexte de son lancement, en 2010 : un projet franco-britannique (ANR-FRBR-09-037-01, 2010-2014). Sorti
de ce cadre en 2014, il a été soutenu par la DGLFLF (budgets 2014,
2016, 2018, 2019), par Ortolang (budget 2016) et par le GTRC canadien Le
français à la mesure d'un continent (F. Martineau dir., 2010-2017)
Ce corpus vise à documenter des évolutions en cours dans le
français, sous la forme d’un "vernaculaire urbain contemporain", ainsi que les effets sur le
français du
contact avec les langues de l’immigration. Le principe privilégié pour
le
recueil a été la "proximité communicative" : aucun enregistrement n’a été
fait avec des inconnus (liens de réseau, histoire conversationnelle
antérieure). C’est pourquoi le recueil est le fruit du travail de 26 enquêteurs
(dont le prénom engage le titre de l’enquête), qui ont joint 187
locuteurs
différents, provenant de 28 communes d’Ile-de-France et de 4
arrondissements
parisiens. En fonction de leurs caractéristiques linguistiques et
langagières
audibles (et non sur des critères socio-démographiques), les
enregistrements
ont été classés en 3 catégories : entretiens traditionnels, entretiens
de
proximité et événements écologiques (sans enquêteur). Le corpus
comporte 106 enregistrements, de durées entre 6 et 153
mn, transcrits sous Praat (sauf 2 sous Transcriber). Les transcriptions ont été révisées et anonymisées (texte et son). Eniron 1 200 000 mots figurent sur le site, soit 83 heures (cf. conventions de transcription). En mars 2023, le corpus a fait l’objet de 97 publications (voir fichier
pdf des références bibliographiques).Chacune des enquêtes correspond à cinq catégories de fichiers dans le corpus : - le fichier son (.wav),- la transcription (.TextGrid) - On peut la consulter de façon alignée avec le son (.wav) à l'aide du logiciel Praat),- la même transcription (.docx) - qu'on peur consulter sans alignement avec le son,- un fichier de métadonnées (.txt),- une ou des fiche(s) signalétique(s) pour chaque locuteur, dans la mesure du possible (.txt).Pour avoir un aperçu du contenu des transcriptions, des versions docx (Word) sont disponibles dans le dossier "MPF_Docx".Créé à partir de ce corpus, mais utilisable par tout corpus de Textgrids, le programme Python extractionMots.py (adresse ci-dessous). Pour chaque "mot" spécifié en paramètre, le programme en extrait du corpus sous format csv toutes les occurrences (enquêtes et tours de parole - minutage, locut·eur·rice).https://github.com/aghnanterre/extract_from_TextGrid/edit/master/README.txtIl est à noter que l'url https://ct3.ortolang.fr/teiconvert/index-en.html propose plusieurs outils de conversion en ligne (par exemple un TextGrid peut être converti en .doc ou en .txt.Un échantillon de tour de parole est écoutable et consultable dans le dossier PetitExemple : fichiers 0_Adel2_et_tout
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11



