five

Monographies de langue française de Gallica : Texte océrisé

收藏
SSH Open MarketPlace2025-08-18 更新2025-08-23 收录
下载链接:
https://marketplace.sshopencloud.eu/dataset/9xjabv
下载链接
链接失效反馈
官方服务:
资源简介:
**Présentation :** Ce jeu de données fournit le texte océrisé des monographies en langue française de la collection numérique de Gallica. **Contenu du jeu de données** Il contient le texte transcrit par OCR des monographies de langue française de Gallica (en ligne à la date de mars 2023), pour lesquelles le texte n'est pas l'objet de conditions d'usage restrictives, soit environ 300 000 ouvrages. La requête Gallica correspondant aux monographies de langue française avec OCR et en ligne à la date de mars 2023, est la suivante : https://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve\\\&exactSearch=true\\\&collapsing=false\\\&version=1.2\\\&query=(dc.language%20all%20%22fre%22)%20and%20(dc.type%20all%20%22monographie%22)%20and%20(gallicapublication_date%3E=%221380%22)%20and%20(ocr.quality%20all%20%22Texte%20disponible%22)%20and%20(indexationdate%3C=%222023/04/28%22) Elle renvoie environ 395k documents, la différence entre les deux quantités correspondant en majorité au corpus du programme de numérisation des Indisponibles du XXe siècle, qui est référencé dans Gallica mais dont les textes sont soumis à une restriction d'usage. **Format du jeu de données :** Le jeu initial a été créé en avril 2021. La fréquence de sa mise à jour deviendra annuelle à compter de 2024. Le jeu se compose pour chacune des extractions : 2021-04-01 et 2023-04-01 : - des métadonnées des monographies concernées, au format .csv, - de la liste des identifiants ARK des monographies disposant d'un OCR, au format .txt, - des textes bruts de l'OCR de ces documents, au format .txt. Le jeu initial a été créé en avril 2021. La fréquence de mise à jour sera annuelle à compter de 2024. **Contexte de production :** Ce jeu a été produit par les créateurs de l'outil de lexicométrie [Gallicagram](https://shiny.ens-paris-saclay.fr/app/gallicagram), pour les besoins de ce dernier. L'extraction du corpus a été réalisée avec l'API document Gallica **English Description** This dataset includes the OCRized textual data from all the monographs in the French National Library's Gallica platform. One must first ask permission from the BNF's Datalab, who oversees legitimate use.
创建时间:
2025-08-18
二维码
社区交流群
二维码
科研交流群
商业服务