five

SyllabO+

收藏
DataCite Commons2025-11-20 更新2025-04-09 收录
下载链接:
https://borealisdata.ca/citation?persistentId=doi:10.5683/SP3/T3ZUIN
下载链接
链接失效反馈
官方服务:
资源简介:
SyllabO+ est un corpus et une série de bases de données dédiés au français parlé au Québec, au niveau sous-lexical et lexical, enregistrés dans la province de Québec, au Canada, entre 2012 et 2016. Pour plus d’informations, consultez notre site web : https://syllabo.speechneurolab.ca. Le corpus SyllabO+ est composé des transcriptions de 225 locuteurs adultes natifs du français québécois dans des contextes de communication formels et informels. Tous les enregistrements représentent la parole naturelle : aucun texte n’a été lu et les conversations n’étaient pas scénarisées. Toutes les syllabes et les phonèmes sont transcrits en alphabet phonétique international (API) afin de représenter l’articulation avec précision. SyllabO+ comprend un ensemble de 225 fichiers XML (un par locuteur) ainsi qu’une série de bases de données contenant des informations sur les phonèmes, les syllabes, les mots, les lemmes et les morphèmes. Ces bases de données incluent des statistiques distributionnelles pour chaque unité linguistique (phonèmes, syllabes, mots, morphèmes), notamment la fréquence normalisée, les fréquences de cooccurrence, les probabilités de transition et l’information mutuelle (pour des groupes de deux à trois unités). Des informations sur la structure des syllabes sont également disponibles. Les bases de données sont accessibles aux formats XLSX et CSV. SyllabO+ is a corpus and databases dedicated spoken French in Québec, at the sub-lexical and lexical levels, recorded in the province of Quebec, Canada, from 2012 to 2016. For more information, consult our website: https://syllabo.speechneurolab.ca The SyllabO+ corpus contains the transcriptions of 225 adult native speakers of Quebec French in formal and informal communication contexts. All recordings represent natural speech, that is, no text was read, and conversations were not scripted. All syllables and phones are transcribed in international phonetic alphabet (IPA) to represent the articulation accurately. SyllabO+ includes a set of 225 XML files (one per talker) as well as a series of databases: phones, syllables, words, lemmas and morphemes. Importantly, these databases include the distributional statistics for each unit of language (phones, syllables, words, morphemes), including normalized frequency, co-occurrence frequencies, transition probabilities and mutual information (for groups of two to three units). Information about syllable structure is also available. The databases are available as XLSX and CSV.
提供机构:
Borealis
创建时间:
2024-04-02
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作