CasEN
收藏DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/casen/v1
下载链接
链接失效反馈官方服务:
资源简介:
CasEN est un outil de reconnaissance d'entités nommées dans des textes en français. Il a été réalisé, dans le cadre du projet Prolex, par Nathalie Friburger et Denis Maurel, du Laboratoire d'informatique fondamentale et appliquée (Lifat) de l'université de Tours. Les entités nommées reconnues ici sont les entités nommées classiques en traitement automatique des langues, à savoir les noms propres, les mesures et les dates.-----L'outil CasEN a reçu le soutien :du projet ANR Variling (2007-2009) ;du projet Feder Région Centre Entités nommées et nommables (2009-2010) ;du projet ANR Investissement d'avenir Ortolang (2013-2014) ;du projet ANR Investissement d'avenir Istex (2014-2017).CasEN utilise la plateforme Unitex,
avec l'appel à des ressources lexicales, conçues sous la forme de
dictionnaires et l'utilisation de descriptions locales de motifs,
implantées par des cascades de graphes.Ces graphes sont des
transducteurs qui agissent sur le texte par des insertions,
remplacements ou suppressions. Ces actions peuvent éventuellement être
itératives. Elles peuvent aussi se faire "à la volée" sur un texte
particulier en fonction des résultats des transducteurs précédents. La
plateforme Unitex permet une écriture et une maintenance faciles de ces
transducteurs en les présentant à l'utilisateur sous forme de graphes.
Le principe d'une cascade est de pouvoir utiliser dans les descriptions
suivantes les motifs déjà détectés ou, au contraire, d'éviter un
étiquetage non souhaité pour un motif déjà reconnu. L'ordre de passage
de ces transducteurs est donc un paramètre important.Les graphes font éventuellement appel à des sous-graphes qui sont :Soit des graphes plus spécifiques pour lesquels un passage en cascade
est inutile. Par exemple le graphe amount.grf appelle des sous graphes
reconnaissant différentes mesures (monnaie, température, longueur,
etc.).Soit des graphes outils qui opèrent différentes reconnaissances ou transformations utilisées par la suite.Soit
des graphes comprenant des listes de mots utilisés dans un contexte
particulier. Ces listes peuvent éventuellement être étiquetées.Soit des graphes comprenant des expressions régulières ou des masques Unitex pour sélectionner des
mots commençant par une majuscule, des contraintes morphologiques, etc.Des graphes peuvent être construits automatiquement pour le texte étudié
à partir de graphes de généralisation d'étiquetage. Ces graphes
permettent, par exemple, de retrouver une entité non introduite par le
contexte, si cette même entité a été repérée ailleurs dans le texte par
un des graphes précédents.
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11



