five

CasEN

收藏
DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/casen/v1
下载链接
链接失效反馈
官方服务:
资源简介:
CasEN est un outil de reconnaissance d'entités nommées dans des textes en français. Il a été réalisé, dans le cadre du projet Prolex, par Nathalie Friburger et Denis Maurel, du Laboratoire d'informatique fondamentale et appliquée (Lifat) de l'université de Tours. Les entités nommées reconnues ici sont les entités nommées classiques en traitement automatique des langues, à savoir les noms propres, les mesures et les dates.-----L'outil CasEN a reçu le soutien :du projet ANR Variling (2007-2009) ;du projet Feder Région Centre Entités nommées et nommables (2009-2010) ;du projet ANR Investissement d'avenir Ortolang (2013-2014) ;du projet ANR Investissement d'avenir Istex (2014-2017).CasEN utilise la plateforme Unitex, avec l'appel à des ressources lexicales, conçues sous la forme de dictionnaires et l'utilisation de descriptions locales de motifs, implantées par des cascades de graphes.Ces graphes sont des transducteurs qui agissent sur le texte par des insertions, remplacements ou suppressions. Ces actions peuvent éventuellement être itératives. Elles peuvent aussi se faire "à la volée" sur un texte particulier en fonction des résultats des transducteurs précédents. La plateforme Unitex permet une écriture et une maintenance faciles de ces transducteurs en les présentant à l'utilisateur sous forme de graphes. Le principe d'une cascade est de pouvoir utiliser dans les descriptions suivantes les motifs déjà détectés ou, au contraire, d'éviter un étiquetage non souhaité pour un motif déjà reconnu. L'ordre de passage de ces transducteurs est donc un paramètre important.Les graphes font éventuellement appel à des sous-graphes qui sont :Soit des graphes plus spécifiques pour lesquels un passage en cascade est inutile. Par exemple le graphe amount.grf appelle des sous graphes reconnaissant différentes mesures (monnaie, température, longueur, etc.).Soit des graphes outils qui opèrent différentes reconnaissances ou transformations utilisées par la suite.Soit des graphes comprenant des listes de mots utilisés dans un contexte particulier. Ces listes peuvent éventuellement être étiquetées.Soit des graphes comprenant des expressions régulières ou des masques Unitex pour sélectionner des mots commençant par une majuscule, des contraintes morphologiques, etc.Des graphes peuvent être construits automatiquement pour le texte étudié à partir de graphes de généralisation d'étiquetage. Ces graphes permettent, par exemple, de retrouver une entité non introduite par le contexte, si cette même entité a été repérée ailleurs dans le texte par un des graphes précédents.
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作