下载链接：

https://zenodo.org/record/4893550

下载链接

链接失效反馈

官方服务：

资源简介：

INFORMATIONS GENERALES ———————————— Titre: Références Automatisation des fonctions archivistiques Auteurs: Groupe "Automatisation" Description Sommaire: Jeu de données constitué dans le cadre d’un cours de "Data curation" donné dans le Master IS de la Haute école de gestion de Genève (HES) par les Prof. M. Arnaud Gaudinat et M. Christian Mumenthaler. L’objectif du Projet était notamment de récolter par du scraping 2000 entrées de Google Scholar à partir d’un sujet. Date de mise en ligne: 1 juin 2021 Version: 1 ORGANISATION DU REPERTOIRE ———————————————— - Readme Readme_Automatisation.rtf - Sitemap web scraper automatisation_500.csv automation_500.csv computational_archival_science_500.csv archives_numeriques_500.csv - OpenRefine Projet_Data_Curation_Automatisation.gz - Fichier WGet wget_commande.rtf wget_commande2.sh fichiers pdf récupérés - Jeu de données Projet_Data_Curation_Automatisation.csv METHODOLOGIE DE COLLECTE ——————————————— SCRAPING Outils: Web Scraper Chrome Etapes: 1. Recherche sur Google Scholar: "automatisation fonctions archivistiques", recherche en français sans guillemets, 1370 résultats 2. Tentative de scraping de 500 résultats: échec. Message "Erreur de serveur" 3. Solution: procéder en 4x500 avec quatre recherches et quatre sitemaps différents: Automatisation fonctions archivistiques -> automatisation_500.csv Automatisation archival science -> automation_500.csv Computational archival science -> computational_archival_science_500.csv Archives numériques -> archives_numeriques_500.csv Fichiers: sitemaps.rtf Description: Fichier contenant les 4 sitemaps utilisés pour le scraping automatisation_500.csv Description: Fichier texte contenant un tableau des résultats du scraping avec 500 résultats de la recherche Automatisation fonctions archivistiques. Contenu: web-scraper-order: Numéro de référence attribué par Web Scraper web-scraper-start-url: Url Google Scholar de la référence title: Titre de l’article biblio: Auteur(s) et source extrait: Extrait de l’article url_pdf: Lien raccourci vers le pdf url_pdf-href: Lien complet vers le pdf automation_500.csv Description: Fichier texte contenant un tableau des résultats du scraping avec 500 résultats de la recherche Automatisation archival science. Contenu: idem fichier précédent computational_archival_science_500.csv Description: Fichier texte contenant un tableau des résultats du scraping avec 500 résultats de la recherche Computational archival science. Contenu: idem fichier précédent archives_numeriques_500.csv Description: Fichier texte contenant un tableau des résultats du scraping avec 500 résultats de la recherche Archives numérique. Contenu: idem fichier précédent NETTOYAGE Outils: Tableau Prep Etapes: 1. Les quatre fichiers .csv ont été fusionné par "union" sur Tableau prep 2. Filtrage des formats (exclusion des HTML, etc.) pour ne conserver que les PDF, réduction à 882 résultats RECONCILIATION ET ENRICHISSEMENT Outils: Open Refine; Tableau; Wikidata; Tika Etapes: 1. Grâce au toolkit Apache Tika les métadonnées des pdf ainsi que les pdf en plein texte ont été extraites et ajoutées dans de nouvelles colonnes. 2. Les informations date et langue ont été extraite des métadonnées 3. Une autre Regex pour isoler l’hébergeur: Expression régulière l’hébergeur : value.match(/^.+ (.+)/).join(" ") 4. Puis une réconciliation à partir de Wikidata a été opérée sur la colonne hébergeur (université), à partir de laquelle le jeu de donnée a pu être enrichi: - country (pays) - headquarters (ville) - field of work (discipline) Fichiers: Projet_Data_Curation_Automatisation.gz Description: fichier Open Refine contenant 882 résultats Contenu: Table Names: Origine du sraping dont est issue la référence web-scraper-order: Référence attribuée par Web Scraper Title: Titre de l’article Biblio: Auteur(s) et source Extrait: Extrait de l’article URL_PDF : Lien raccourci vers le pdf Hébergeurs : Institutions dépositaires country : Pays d’origine du dépôt headquarters location : Ville d’origine du dépôt field of work : Domaine de compétence URL_PDF_href : Lien complet vers le pdf meta_pdf : Métadonnées des pdf extraites avec Tika Date : Dates complètes selon extraction des métadonnées Year : Année extraite Language : Langue de la référence Language_Réc : Langue réconciliée texte_pdf : Texte intégral du pdf RECUPERATION PDF Outils: wget; atom; terminal Mac Etapes: 1. Copier-coller de ce qui a été utilisé dans le scrap, introduction de lignes de commandes: -nv : (no verbose) -a : ajouter les traces du wget dans un fichier de lo -O : écriture d’un fichier -U : simuler une entête de navigateur Web 2. Lancer commande Fichiers wget_commande.rtf Description: Fichiers avec les commandes wget_commande.sh Description: fichier lancé sur atom qui contient les identificateurs et l’url des fichiers pdf dans lesquels on a introduit des lignes de commandes Fichiers pdf récupérés: 1622303994-2142.pdf 1622304784-2181.pdf 1622305615-2222.pdf 1622305656-2224.pdf 1622306507-2266.pdf 1622306709-2276.pdf 1622311300-2502.pdf 1622313108-2591.pdf 1622313128-2592.pdf 1622313310-2601.pdf JEU DE DONNEES ————————— Projet_Data_Curation_Automatisation.csv Description: Fichier final du jeu de données, après nettoyage, enrichissement et réconciliations Contenu: Table Names: Origine du sraping dont est issue la référence web-scraper-order: Référence attribuée par Web Scraper Title: Titre de l’article Biblio: Auteur(s) et source Extrait: Extrait de l’article URL_PDF : Lien raccourci vers le pdf Hébergeurs : Institutions dépositaires country : Pays d’origine du dépôt headquarters location : Ville d’origine du dépôt field of work : Domaine de compétence URL_PDF_href : Lien complet vers le pdf meta_pdf : Métadonnées des pdf extraites avec Tika Date : Dates complètes selon extraction des métadonnées Year : Année extraite Language : Langue de la référence Language_Réc : Langue réconciliée texte_pdf : Texte intégral du pdf

应用场景：

Références Automatisation des données archivistiques