FrVectors
收藏DataCite Commons2026-02-10 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/frvectors/v1
下载链接
链接失效反馈官方服务:
资源简介:
Bases de vecteurs de mots (word embeddings) générés à l'aide de l'outil fastText (Facebook research), à partir du corpus FrTenTen (10 milliards de mots).Les bases ont été constituées à partir d'une version normalisée du corpus FrTenTen: les mots pleins ont été remplacés par leur lemme, la plupart des mots-outils par leur catégorie morpho-syntaxique, et les entités numériques par le code NB, afin d'aider l'algorithme de vectorisation à identifier des similarités.2 versions de la base ont été générées:une petite base à partir d'un échantillon aléatoire de 1 Go de phrases du corpus FrTenTen. Les fichiers contenant le terme "1Gb" sont générés à partir de l'échantillon. Cette version est la plus adaptée pour des tests.une base générée à partir de la totalité du corpus ("ALL").Chaque version des bases ci-dessus a été générée à partir des 2 algorithmes fournis avec l'outil, avec tous les paramètres par défaut (6-grammes, 300 dimensions): cbow: pour "continuous bag of words"skipgram: pour des n-grammes non contigus.Chaque algorithme est censé être optimisé pour capturer certaines similarités. En particulier, cbow est censé fournir le mot le plus probable en fonction d'un contexte donné, alors que skip-gram est censé fournir les mots du contexte les plus probables autour d'un mot donné. Par ailleurs, skip-gram est censé être plus sensible aux mots rares.Pour plus de détails, voir: Tomas Mikolov et al: Efficient Estimation of Word Representations in Vector Space, Tomas Mikolov et al: Distributed Representations of Words and Phrases and their Compositionality.
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-10



