five

CasFin

收藏
DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/casfin/v1
下载链接
链接失效反馈
官方服务:
资源简介:
CasFin est un outil de segmentation en phrase. Il a été réalisé en collaboration par Denis Maurel, du Laboratoire d'informatique fondamentale et appliquée (Lifat) de l'université de Tours et par Sandrine Ollinger, du Laboratoire d'analyse et traitement informatique de la langue française (Atilf) de l'université de Lorraine et du CNRS.Les balises utilisées par CasFin sont les balises TEI lt;pgt; et lt;sgt;.L'idée de créer l'outil CasFin est venue d'une utilisation d'un autre outil, CasEN, pour l'annotation d'entités nommées. Comme CasEN, CasFin est une cascade de graphes Unitex.CasEN commence par une prise en compte des balises XML et une segmentation en phrases, fortement inspirée du graphe proposé dans la distribution d'Unitex. Nous en avons extrait les graphes concernés et nous les avons placés dans une nouvelle cascade, nommée CasFin. La cascade ainsi réalisée marquait les débuts et fins de phrase, mais sans tenir compte des inclusions. Deux problèmes principaux se posaient : l'étude du contexte du caractère deux-points et les textes entre guillemets, parenthèses ou crochets. Dans CasEN, le caractère deux-points, suivi d'un mot commençant par une majuscule, est considéré comme une fin de phrase. Or il s'agit parfois simplement du complément de la phrase de départ, ce qui interdit la segmentation à cet endroit.Par exemple, dans le corpus distribué par Unitex (Le tour du monde en 80 jours, de Jules Verne), la phrase :Je le sais, monsieur Fogg, répondit la jeune femme, et je vous demanderai à mon tour : Me pardonnerez-vous de vous avoir suivi, et - qui sait ? - d'avoir peut-être, en vous retardant, contribué à votre ruine ?est segmentée par CasEN en deux phrases :lt;sgt;Je le sais, monsieur Fogg, répondit la jeune femme, et je vous demanderai à mon tour :lt;/sgt; lt;sgt;Me pardonnerez-vous de vous avoir suivi, et - qui sait ? - d'avoir peut-être, en vous retardant, contribué à votre ruine ?lt;/sgt;La segmentation obtenue avec CasFin enlève la coupure de phrase après le caractère deux-points ; il n'y a plus donc qu'une seule phrase qui en contient une autre :lt;sgt;Je le sais, monsieur Fogg, répondit la jeune femme, et je vous demanderai à mon tour : lt;sgt;Me pardonnerez-vous de vous avoir suivi, et - qui sait ? - d'avoir peut-être, en vous retardant, contribué à votre ruine ?lt;/sgt;lt;/sgt;Prenons un autre exemple, dans lequel l'adverbe puis introduit un complément et ne peut ici constituer une phrase à lui tout seul :Puis : " A vous de couper, monsieur ", ajouta-t-il en présentant les cartes à Thomas Flanagan.La segmentation de cette citation obtenue par CasEN est la suivante :lt;sgt;Puis :lt;/sgt; " lt;sgt;A vous de couper, monsieur ", ajouta-t-il en présentant les cartes à Thomas Flanagan.lt;/sgt;Alors que la segmentation obtenue avec CasFin enlève à nouveau la coupure de phrase après le caractère deux-points :lt;sgt;Puis : " lt;sgt;A vous de couper, monsieurlt;/sgt; ", ajouta-t-il en présentant les cartes à Thomas Flanagan.lt;/sgt;Il est possible d'utiliser CasEN à la suite de CasFin afin d'obtenir un balisage en phrases imbriquées et en entités nommées. Voir pour cela la page CasEN sur Ortolang.
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作