five

CLIMATE : Données terminologiques et corpus sur les discours climatiques anglophones (2007-2021)

收藏
DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/climate-discourses/v4
下载链接
链接失效反馈
官方服务:
资源简介:
• Corpus : Ce jeu de données contient un corpus diachronique sur le sujet du changement climatique qui se divise en trois sous-corpus représentant chacun une communauté de discours différente (organisations intergouvernementales, ONG, presse britannique et américaine). Les corpus représentant les organisations intergouvernementales et les ONG peuvent également être regroupés pour étudier les discours d'expertise climatique au sens large. De plus, ils peuvent être comparés avec celui représentant la presse afin d'analyser des phénomènes et processus tels que la déterminologisation, la circulation des termes et des connaissances entre des communautés présentant différents degrés de spécialisation, la variation terminologique, etc. Les corpus sont construits diachroniquement autour de trois évènements clés de la gouvernance climatique, à savoir les COPs 15, 21 et 25/ 26. Ils peuvent dès lors être utilisés pour rendre compte des évolutions les plus récentes dans la terminologie, dans les connaissances et dans les représentations autour du changement climatique. Tous les sous-corpus sont composés de documents complets et authentiques (rapports pour les organisations intergouvernementales et les ONG, articles numériques pour la presse) : seuls ont été supprimés les éventuelles images, tableaux, schémas et références, afin de permettre l'analyse numérique et automatisée des textes. Licence corpus presse : Les articles de presse ont été collectés via la plateforme Europresse, accessible par abonnement universitaire et régie par des restrictions d’usage. En l’occurrence, le contrat de cette plateforme interdit explicitement la reproduction massive, le téléchargement en bloc, ainsi que la constitution d’archives ou la redistribution des contenus. Si nous pouvions bénéficier de l’exception de fouille de texte et de données (TDM) (article L122-5-3 du Code de la propriété intellectuelle (transposition de la Directive (UE) 2019/790)) pour exploiter les articles de presse, nous ne disposons pas des droits pour diffuser le corpus librement sur cet entrepôt. L'accès à ce corpus est donc en accès restreint, mais les métadonnées restent accessibles. Licence corpus experts : Les rapports d'expertise étaient librement téléchargeables sur les sites des différentes organisations, pour un usage personnel et non-commercial. Néanmoins, les organisations possèdent des licences diverses pour le partage des rapports en question, plusieurs d'entre elles requièrant une demande d'autorisation de partage officielle, tandis que d'autres interdisent tout bonnement la redistribution. Pour ces raisons, nous avons restraint l'accès de ce corpus aux membres de l'espace de travail. Les documents sources sont néanmoins téléchargeables à partir du fichier de métadonnées, qui contient les liens vers les pdf des différents rapports. Nous avons également partagé quelques exemples de rapports dont la license autorise la diffusion (rapports de l'UNEP dans le sous-dossier OIG et de Greenpeace dans le sous-dossier ONG), afin d'illustrer la manière dont nous les avons traités pour l'analyse lexicométrique. • Données statistiques et de visualisation : Le jeu de données inclut également différents documents proposant une représentation (arborescences) et une analyse quantitative (tableurs) des termes extraits au sein de ces différents corpus. Ces documents ont été produits dans le cadre de notre thèse de doctorat, intitulée « Variation terminologique et néologie dans le domaine du changement climatique » (en préparation). Les fichiers « ReadMe » proposent une description des documents en question, de la façon dont les données qu'ils contiennent ont été récoltées, et des différents acronymes mobilisés en leur sein.• Protocoles : Le dépôt inclut les protocoles de recherche ayant permis le traitement automatisé des corpus (conversion des fichiers PDF d'origine en fichiers TXT et "nettoyage" de ces derniers) et des listes de termes extraites via l'analyse lexicométrique de ces corpus. Les protocoles en question, contenant du code au langage R, sont disponibles aux formats .rmd (scripts principaux pouvant être directement chargés sur R) et .md (script lisibles sans R). Ces protocoles peuvent être librement utilisés et modifiés, sous réserve de mention de l'autrice.
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11
二维码
社区交流群
二维码
科研交流群
商业服务