Base d'apprentissage pour la classification automatique des métadonnées avec ELSST

Name: Base d'apprentissage pour la classification automatique des métadonnées avec ELSST
Creator: data.sciencespo
Published: 2026-03-26 14:39:26
License: 暂无描述

DataCite Commons2026-03-26 更新2025-05-10 收录

下载链接：

https://data.sciencespo.fr/citation?persistentId=doi:10.21410/7E4/0VDSUY

下载链接

链接失效反馈

官方服务：

资源简介：

Dans le cadre du projet FAIRwDDI [https://anr.fr/Projet-ANR-24-RESO-0003] dont le troisième volet (WP3) vise à mettre en place un protocole de curation à l’aide de l’IA, le CDSP a produit une base d’apprentissage pour entraîner (fine-tuner) un modèle de machine learning NLP. In fine, le modèle permettra de classifier automatiquement les variables d’un jeu de données à partir d’une sélection de concepts issus du thésaurus européen European Language of Social Science Thesaurus [https://elsst.cessda.eu/] (ELSST). La production de ce jeu de données sera également utile au projet ONTOLISST [https://oscars-project.eu/projects/ontolisst-thematic-ontologies-social-science-research-data] dont le CDSP est partenaire. Ces données seront ensuite mobilisées pour le développement d’une fonctionnalité d’exploration au niveau variable pour la deuxième version de l’outil de base de questions du CDSP ReQuest [https://request.sciencespo.fr/]. La base d’apprentissage produite regroupe plusieurs enquêtes produites par le dispositif ELIPSS [https://www.elipss.fr/fr/]. Ces enquêtes ont été sélectionnées pour couvrir les principales thématiques de la Banque de données du CDSP. La base est constituée des variables (noms et libellés), des questions (intitulés et modalités de réponse), ainsi que des concepts (ELSST, version 4 [https://thesauri.cessda.eu/elsst-4/en/?clang=fr]). Le thésaurus ELSST a été choisi pour sa disponibilité en plusieurs langues et son accessibilité dans des formats standardisés (XML/RDF).

提供机构：

data.sciencespo

创建时间：

2025-04-22