five

Références Automatisation des données archivistiques

收藏
NIAID Data Ecosystem2026-05-02 收录
下载链接:
https://zenodo.org/record/4893550
下载链接
链接失效反馈
官方服务:
资源简介:
INFORMATIONS GENERALES ———————————— Titre:     Références Automatisation des fonctions archivistiques Auteurs:    Groupe "Automatisation" Description Sommaire:  Jeu de données constitué dans le cadre d’un cours de "Data curation" donné dans le Master IS de la Haute école de gestion de Genève (HES) par les Prof. M. Arnaud Gaudinat et M. Christian Mumenthaler. L’objectif du Projet était notamment de récolter par du scraping 2000 entrées de Google Scholar à partir d’un sujet. Date de mise en ligne: 1 juin 2021 Version: 1 ORGANISATION DU REPERTOIRE ————————————————     - Readme         Readme_Automatisation.rtf     - Sitemap web scraper         automatisation_500.csv         automation_500.csv         computational_archival_science_500.csv         archives_numeriques_500.csv     - OpenRefine         Projet_Data_Curation_Automatisation.gz     - Fichier WGet         wget_commande.rtf         wget_commande2.sh         fichiers pdf récupérés     - Jeu de données         Projet_Data_Curation_Automatisation.csv METHODOLOGIE DE COLLECTE ——————————————— SCRAPING Outils: Web Scraper Chrome Etapes:     1. Recherche sur Google Scholar: "automatisation fonctions archivistiques", recherche en français sans guillemets, 1370 résultats     2. Tentative de scraping de 500 résultats: échec. Message "Erreur de serveur"     3. Solution: procéder en 4x500 avec quatre recherches et quatre sitemaps différents:         Automatisation fonctions archivistiques    ->    automatisation_500.csv         Automatisation archival science            ->    automation_500.csv         Computational archival science            ->    computational_archival_science_500.csv         Archives numériques                    ->    archives_numeriques_500.csv               Fichiers:     sitemaps.rtf         Description: Fichier contenant les 4 sitemaps utilisés pour le scraping     automatisation_500.csv         Description: Fichier texte contenant un tableau des résultats du scraping avec 500 résultats de la recherche Automatisation fonctions archivistiques.         Contenu:             web-scraper-order:  Numéro de référence attribué par Web Scraper             web-scraper-start-url: Url Google Scholar de la référence             title: Titre de l’article             biblio: Auteur(s) et source             extrait: Extrait de l’article             url_pdf: Lien raccourci vers le pdf             url_pdf-href:  Lien complet vers le pdf     automation_500.csv         Description: Fichier texte contenant un tableau des résultats du scraping avec 500 résultats de la recherche Automatisation archival science.         Contenu: idem fichier précédent     computational_archival_science_500.csv         Description: Fichier texte contenant un tableau des résultats du scraping avec 500 résultats de la recherche Computational archival science.         Contenu: idem fichier précédent     archives_numeriques_500.csv         Description: Fichier texte contenant un tableau des résultats du scraping avec 500 résultats de la recherche Archives numérique.         Contenu: idem fichier précédent NETTOYAGE Outils: Tableau Prep Etapes:     1. Les quatre fichiers .csv ont été fusionné par "union" sur Tableau prep     2. Filtrage des  formats (exclusion des HTML, etc.) pour ne conserver que les PDF, réduction à 882 résultats      RECONCILIATION ET ENRICHISSEMENT Outils: Open Refine; Tableau; Wikidata; Tika Etapes:     1. Grâce au toolkit Apache Tika les métadonnées des pdf ainsi que les pdf en plein texte ont été extraites et ajoutées dans de nouvelles colonnes.     2. Les informations date et langue ont été extraite des métadonnées    3. Une autre Regex pour isoler l’hébergeur:         Expression régulière l’hébergeur : value.match(/^.+ (.+)/).join(" ")     4. Puis une réconciliation à partir de Wikidata a été opérée sur la colonne hébergeur (université), à partir de laquelle le jeu de donnée a pu être enrichi:         - country (pays)         - headquarters (ville)         - field of work (discipline) Fichiers:     Projet_Data_Curation_Automatisation.gz         Description: fichier Open Refine contenant 882 résultats         Contenu:             Table Names: Origine du sraping dont est issue la référence             web-scraper-order: Référence attribuée par Web Scraper             Title: Titre de l’article             Biblio: Auteur(s) et source             Extrait: Extrait de l’article             URL_PDF :  Lien raccourci vers le pdf             Hébergeurs : Institutions dépositaires             country : Pays d’origine du dépôt             headquarters location : Ville d’origine du dépôt             field of work : Domaine de compétence             URL_PDF_href : Lien complet vers le pdf             meta_pdf : Métadonnées des pdf extraites avec Tika             Date : Dates complètes selon extraction des métadonnées             Year : Année extraite             Language : Langue de la référence             Language_Réc : Langue réconciliée             texte_pdf : Texte intégral du pdf RECUPERATION PDF Outils: wget; atom; terminal Mac Etapes:     1. Copier-coller de ce qui a été utilisé dans le scrap, introduction de lignes de commandes:         -nv : (no verbose)         -a : ajouter les traces du wget dans un fichier de lo         -O : écriture d’un fichier         -U : simuler une entête de navigateur Web     2. Lancer commande Fichiers     wget_commande.rtf         Description: Fichiers avec les commandes     wget_commande.sh         Description: fichier lancé sur atom qui contient les identificateurs et l’url des fichiers pdf dans lesquels on a introduit des lignes de commandes     Fichiers pdf récupérés:         1622303994-2142.pdf         1622304784-2181.pdf         1622305615-2222.pdf         1622305656-2224.pdf         1622306507-2266.pdf         1622306709-2276.pdf         1622311300-2502.pdf         1622313108-2591.pdf         1622313128-2592.pdf         1622313310-2601.pdf JEU DE DONNEES ————————— Projet_Data_Curation_Automatisation.csv         Description: Fichier final du jeu de données, après nettoyage, enrichissement et réconciliations         Contenu:             Table Names: Origine du sraping dont est issue la référence             web-scraper-order: Référence attribuée par Web Scraper             Title: Titre de l’article             Biblio: Auteur(s) et source             Extrait: Extrait de l’article             URL_PDF :  Lien raccourci vers le pdf             Hébergeurs : Institutions dépositaires             country : Pays d’origine du dépôt             headquarters location : Ville d’origine du dépôt             field of work : Domaine de compétence             URL_PDF_href : Lien complet vers le pdf             meta_pdf : Métadonnées des pdf extraites avec Tika             Date : Dates complètes selon extraction des métadonnées             Year : Année extraite             Language : Langue de la référence             Language_Réc : Langue réconciliée             texte_pdf : Texte intégral du pdf
创建时间:
2024-07-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作