CasFin
收藏DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/casfin/v1
下载链接
链接失效反馈官方服务:
资源简介:
CasFin est un outil de segmentation en phrase. Il a été réalisé en collaboration par Denis Maurel, du Laboratoire d'informatique fondamentale et appliquée (Lifat) de l'université de Tours et par Sandrine Ollinger, du Laboratoire d'analyse et traitement informatique de la langue française (Atilf) de l'université de Lorraine et du CNRS.Les balises utilisées par CasFin sont les balises TEI lt;pgt; et lt;sgt;.L'idée de créer l'outil CasFin est venue d'une utilisation d'un
autre outil, CasEN, pour l'annotation d'entités nommées. Comme CasEN,
CasFin est une cascade de graphes Unitex.CasEN commence par une prise en compte des balises XML et une segmentation en
phrases, fortement inspirée du graphe proposé dans la distribution
d'Unitex. Nous en avons extrait les graphes concernés et nous les avons
placés dans une nouvelle cascade, nommée CasFin. La cascade ainsi
réalisée marquait les débuts et fins de phrase, mais sans tenir compte
des inclusions. Deux problèmes principaux se posaient : l'étude du
contexte du caractère deux-points et les textes entre guillemets,
parenthèses ou crochets. Dans CasEN, le caractère
deux-points, suivi d'un mot commençant par une majuscule, est considéré
comme une fin de phrase. Or il s'agit parfois simplement du complément
de la phrase de départ, ce qui interdit la segmentation à cet endroit.Par exemple, dans le corpus distribué par Unitex (Le tour du monde en 80 jours, de Jules Verne), la phrase :Je
le sais, monsieur Fogg, répondit la jeune femme, et je vous demanderai à
mon tour : Me pardonnerez-vous de vous avoir suivi, et - qui sait ? -
d'avoir peut-être, en vous retardant, contribué à votre ruine ?est segmentée par CasEN en deux phrases :lt;sgt;Je
le sais, monsieur Fogg, répondit la jeune femme, et je vous demanderai à
mon tour :lt;/sgt; lt;sgt;Me pardonnerez-vous de vous avoir suivi,
et - qui sait ? - d'avoir peut-être, en vous retardant, contribué à
votre ruine ?lt;/sgt;La segmentation obtenue avec
CasFin enlève la coupure de phrase après le caractère deux-points ; il
n'y a plus donc qu'une seule phrase qui en contient une autre :lt;sgt;Je le sais, monsieur Fogg, répondit la jeune femme, et je vous
demanderai à mon tour : lt;sgt;Me pardonnerez-vous de vous avoir
suivi, et - qui sait ? - d'avoir peut-être, en vous retardant, contribué
à votre ruine ?lt;/sgt;lt;/sgt;Prenons un autre exemple, dans lequel l'adverbe puis introduit un complément et ne peut ici constituer une phrase à lui tout seul :Puis : " A vous de couper, monsieur ", ajouta-t-il en présentant les cartes à Thomas Flanagan.La segmentation de cette citation obtenue par CasEN est la suivante :lt;sgt;Puis
:lt;/sgt; " lt;sgt;A vous de couper, monsieur ", ajouta-t-il en
présentant les cartes à Thomas Flanagan.lt;/sgt;Alors que la segmentation obtenue avec CasFin enlève à nouveau la coupure de phrase après le caractère deux-points :lt;sgt;Puis
: " lt;sgt;A vous de couper, monsieurlt;/sgt; ", ajouta-t-il en
présentant les cartes à Thomas Flanagan.lt;/sgt;Il est possible d'utiliser CasEN à la suite de CasFin afin d'obtenir un balisage en phrases imbriquées et en entités nommées. Voir pour cela la page CasEN sur Ortolang.
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11



