five

MPF

收藏
DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/mpf/v4.1
下载链接
链接失效反馈
官方服务:
资源简介:
Conseil scientifiqueFrançoise Gadet (directrice), Emmanuelle Guérin, Amal Guha, Anaïs Moreno Kerdreux, RobertoPaternostro.MPF est un corpus qui a été recueilli en région parisienne depuis 2010, auprès de populations « jeunes » connaissant des contacts multiculturels réguliers. La dénomination anglaise est due au contexte de son lancement, en 2010 : un projet franco-britannique (ANR-FRBR-09-037-01, 2010-2014). Sorti de ce cadre en 2014, il a été soutenu par la DGLFLF (budgets 2014, 2016, 2018, 2019), par Ortolang (budget 2016) et par le GTRC canadien Le français à la mesure d'un continent (F. Martineau dir., 2010-2017) Ce corpus vise à documenter des évolutions en cours dans le français, sous la forme d’un "vernaculaire urbain contemporain", ainsi que les effets sur le français du contact avec les langues de l’immigration. Le principe privilégié pour le recueil a été la "proximité communicative" : aucun enregistrement n’a été fait avec des inconnus (liens de réseau, histoire conversationnelle antérieure). C’est pourquoi le recueil est le fruit du travail de 26 enquêteurs (dont le prénom engage le titre de l’enquête), qui ont joint 187 locuteurs différents, provenant de 28 communes d’Ile-de-France et de 4 arrondissements parisiens. En fonction de leurs caractéristiques linguistiques et langagières audibles (et non sur des critères socio-démographiques), les enregistrements ont été classés en 3 catégories : entretiens traditionnels, entretiens de proximité et événements écologiques (sans enquêteur). Le corpus comporte 106 enregistrements, de durées entre 6 et 153 mn, transcrits sous Praat (sauf 2 sous Transcriber). Les transcriptions ont été révisées et anonymisées (texte et son). Eniron 1 200 000 mots figurent sur le site, soit 83 heures (cf. conventions de transcription). En mars 2023, le corpus a fait l’objet de 97 publications (voir fichier pdf des références bibliographiques).Chacune des enquêtes correspond à cinq catégories de fichiers dans le corpus : - le fichier son (.wav),- la transcription (.TextGrid) - On peut la consulter de façon alignée avec le son (.wav) à l'aide du logiciel Praat),- la même transcription (.docx) - qu'on peur consulter sans alignement avec le son,- un fichier de métadonnées (.txt),- une ou des fiche(s) signalétique(s) pour chaque locuteur, dans la mesure du possible (.txt).Pour avoir un aperçu du contenu des transcriptions, des versions docx (Word) sont disponibles dans le dossier "MPF_Docx".Créé à partir de ce corpus, mais utilisable par tout corpus de Textgrids, le programme Python extractionMots.py (adresse ci-dessous). Pour chaque "mot" spécifié en paramètre, le programme en extrait du corpus sous format csv toutes les occurrences (enquêtes et tours de parole - minutage, locut·eur·rice).https://github.com/aghnanterre/extract_from_TextGrid/edit/master/README.txtIl est à noter que l'url https://ct3.ortolang.fr/teiconvert/index-en.html propose plusieurs outils de conversion en ligne (par exemple un TextGrid peut être converti en .doc ou en .txt.Un échantillon de tour de parole est écoutable et consultable dans le dossier PetitExemple : fichiers 0_Adel2_et_tout
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作