Références Automatisation des données archivistiques
收藏NIAID Data Ecosystem2026-05-02 收录
下载链接:
https://zenodo.org/record/4893550
下载链接
链接失效反馈官方服务:
资源简介:
INFORMATIONS GENERALES
————————————
Titre: Références Automatisation des fonctions archivistiques
Auteurs: Groupe "Automatisation"
Description Sommaire: Jeu de données constitué dans le cadre d’un cours de "Data curation" donné dans le Master IS de la Haute école de gestion de Genève (HES) par les Prof. M. Arnaud Gaudinat et M. Christian Mumenthaler. L’objectif du Projet était notamment de récolter par du scraping 2000 entrées de Google Scholar à partir d’un sujet.
Date de mise en ligne: 1 juin 2021
Version: 1
ORGANISATION DU REPERTOIRE
————————————————
- Readme
Readme_Automatisation.rtf
- Sitemap web scraper
automatisation_500.csv
automation_500.csv
computational_archival_science_500.csv
archives_numeriques_500.csv
- OpenRefine
Projet_Data_Curation_Automatisation.gz
- Fichier WGet
wget_commande.rtf
wget_commande2.sh
fichiers pdf récupérés
- Jeu de données
Projet_Data_Curation_Automatisation.csv
METHODOLOGIE DE COLLECTE
———————————————
SCRAPING
Outils: Web Scraper Chrome
Etapes:
1. Recherche sur Google Scholar: "automatisation fonctions archivistiques", recherche en français sans guillemets, 1370 résultats
2. Tentative de scraping de 500 résultats: échec. Message "Erreur de serveur"
3. Solution: procéder en 4x500 avec quatre recherches et quatre sitemaps différents:
Automatisation fonctions archivistiques -> automatisation_500.csv
Automatisation archival science -> automation_500.csv
Computational archival science -> computational_archival_science_500.csv
Archives numériques -> archives_numeriques_500.csv
Fichiers:
sitemaps.rtf
Description: Fichier contenant les 4 sitemaps utilisés pour le scraping
automatisation_500.csv
Description: Fichier texte contenant un tableau des résultats du scraping avec 500 résultats de la recherche Automatisation fonctions archivistiques.
Contenu:
web-scraper-order: Numéro de référence attribué par Web Scraper
web-scraper-start-url: Url Google Scholar de la référence
title: Titre de l’article
biblio: Auteur(s) et source
extrait: Extrait de l’article
url_pdf: Lien raccourci vers le pdf
url_pdf-href: Lien complet vers le pdf
automation_500.csv
Description: Fichier texte contenant un tableau des résultats du scraping avec 500 résultats de la recherche Automatisation archival science.
Contenu: idem fichier précédent
computational_archival_science_500.csv
Description: Fichier texte contenant un tableau des résultats du scraping avec 500 résultats de la recherche Computational archival science.
Contenu: idem fichier précédent
archives_numeriques_500.csv
Description: Fichier texte contenant un tableau des résultats du scraping avec 500 résultats de la recherche Archives numérique.
Contenu: idem fichier précédent
NETTOYAGE
Outils: Tableau Prep
Etapes:
1. Les quatre fichiers .csv ont été fusionné par "union" sur Tableau prep
2. Filtrage des formats (exclusion des HTML, etc.) pour ne conserver que les PDF, réduction à 882 résultats
RECONCILIATION ET ENRICHISSEMENT
Outils: Open Refine; Tableau; Wikidata; Tika
Etapes:
1. Grâce au toolkit Apache Tika les métadonnées des pdf ainsi que les pdf en plein texte ont été extraites et ajoutées dans de nouvelles colonnes.
2. Les informations date et langue ont été extraite des métadonnées 3. Une autre Regex pour isoler l’hébergeur:
Expression régulière l’hébergeur : value.match(/^.+ (.+)/).join(" ")
4. Puis une réconciliation à partir de Wikidata a été opérée sur la colonne hébergeur (université), à partir de laquelle le jeu de donnée a pu être enrichi:
- country (pays)
- headquarters (ville)
- field of work (discipline)
Fichiers:
Projet_Data_Curation_Automatisation.gz
Description: fichier Open Refine contenant 882 résultats
Contenu:
Table Names: Origine du sraping dont est issue la référence
web-scraper-order: Référence attribuée par Web Scraper
Title: Titre de l’article
Biblio: Auteur(s) et source
Extrait: Extrait de l’article
URL_PDF : Lien raccourci vers le pdf
Hébergeurs : Institutions dépositaires
country : Pays d’origine du dépôt
headquarters location : Ville d’origine du dépôt
field of work : Domaine de compétence
URL_PDF_href : Lien complet vers le pdf
meta_pdf : Métadonnées des pdf extraites avec Tika
Date : Dates complètes selon extraction des métadonnées
Year : Année extraite
Language : Langue de la référence
Language_Réc : Langue réconciliée
texte_pdf : Texte intégral du pdf
RECUPERATION PDF
Outils: wget; atom; terminal Mac
Etapes:
1. Copier-coller de ce qui a été utilisé dans le scrap, introduction de lignes de commandes:
-nv : (no verbose)
-a : ajouter les traces du wget dans un fichier de lo
-O : écriture d’un fichier
-U : simuler une entête de navigateur Web
2. Lancer commande
Fichiers
wget_commande.rtf
Description: Fichiers avec les commandes
wget_commande.sh
Description: fichier lancé sur atom qui contient les identificateurs et l’url des fichiers pdf dans lesquels on a introduit des lignes de commandes
Fichiers pdf récupérés:
1622303994-2142.pdf
1622304784-2181.pdf
1622305615-2222.pdf
1622305656-2224.pdf
1622306507-2266.pdf
1622306709-2276.pdf
1622311300-2502.pdf
1622313108-2591.pdf
1622313128-2592.pdf
1622313310-2601.pdf
JEU DE DONNEES
—————————
Projet_Data_Curation_Automatisation.csv
Description: Fichier final du jeu de données, après nettoyage, enrichissement et réconciliations
Contenu:
Table Names: Origine du sraping dont est issue la référence
web-scraper-order: Référence attribuée par Web Scraper
Title: Titre de l’article
Biblio: Auteur(s) et source
Extrait: Extrait de l’article
URL_PDF : Lien raccourci vers le pdf
Hébergeurs : Institutions dépositaires
country : Pays d’origine du dépôt
headquarters location : Ville d’origine du dépôt
field of work : Domaine de compétence
URL_PDF_href : Lien complet vers le pdf
meta_pdf : Métadonnées des pdf extraites avec Tika
Date : Dates complètes selon extraction des métadonnées
Year : Année extraite
Language : Langue de la référence
Language_Réc : Langue réconciliée
texte_pdf : Texte intégral du pdf
创建时间:
2024-07-19



