five

Corpus de journaux en français sur la sécurité alimentaire au Burkina Faso et Sénégal annotés en entités nommées et analyse de sentiment

收藏
DataCite Commons2025-05-16 更新2025-04-16 收录
下载链接:
https://entrepot.recherche.data.gouv.fr/citation?persistentId=doi:10.57745/1PISWK
下载链接
链接失效反馈
官方服务:
资源简介:
Ce jeu de données contient 1094 articles de presse en français (405 concernant le Burkina Faso et 689 concernant le Sénégal) relatifs à la sécurité alimentaire, ainsi que des informations extraites automatiquement et le code utilisé pour l'extraction et la visualisation. Dans le but d'expliquer la situation de vulnérabilité à une possible crise alimentaire, ou l’intensification d’une crise déjà présente, nous proposons de relever les mentions des facteurs associés à l’insécurité alimentaire dans les thématiques d’agriculture (e.g. rendement de récolte), environnement-météorologie (e.g. sécheresse), économie (e.g. prix des aliments) et la situation sociopolitique (e.g. attaques armés). Pour y parvenir, nous avons proposé une annotation par entités nommées thématiques et spatio-temporelles (date, durée, village, pays, etc.), ainsi qu'une analyse de sentiment des phrases contenant des mots clés neutres (e.g. “prix”, “coût”, “intrants”, “stock”, etc.) afin de repérer si ces mentions décrivent une situation qui favorise l’accès aux aliments et leur disponibilité (sentiment = positif) ou si, a contrario, ne les favorise pas (sentiment négatif) ou n'est pas liée (sentiment neutre). Le jeu de données comprend les éléments suivants : “01_Expert_Thematic_Lexicon_Food_Insecurity” en format XSLX présente le lexique thématique expert construit par notre équipe de recherche à partir d’une révision bibliographique sur l’insécurité alimentaire et les vulnérabilités du système agro-alimentaire. Ce classeur contient 43 concepts (colonne 'concept') des causes et facteurs associés à l'insécurité alimentaire, groupées en 6 domaines thématique (colonne ‘theme’), chaque catégorie contient plusieurs mots ou des phrases nominales (colonne ‘terms’) associés aux concepts par des relations non-explicitées de variance lexicale, synonymie, hyponymie (concepts plus spécifiques) et co-hyponymie, ainsi qu'une colonne (‘neutral’) qui représente si le concept est neutre (valeur ‘1’) ou polarisé (valeur ‘0’). Les fichiers TAB "02_Corpus_BurkinaFaso_Source_Links" et "03_Corpus_Senegal_Source_Links" présentent un tableau avec les identifiants uniques des articles de presse constituant notre corpus et l'URL d'accès en ligne à leur source : Le Faso, Burkina 24, Dakar Actu, Le Quotidien et APS. Les fichiers JSONL "04_Corpus_BurkinaFaso_Extracted_EntitiesAndSentences" et "05_Corpus_Senegal_Extracted_EntitiesAndSentences" présentent les informations extraites automatiquement à partir du contenu des articles : entités spatiales, organisations et du lexique expert (spaCy), entités temporelles (HeidelTime) et phrases analysées en sentiment (positives, négatives, neutres) avec le modèle Codestral. Les fichiers TAB "06_List_Explanation_Features_BurkinaFaso" et "07_List_Explanation_Features_Senegal" présentent les listes des segments du texte que le grand modèle de langue (Codestral) utilise pour justifier la prédiction de polarité. "08_Visualization_BurkinaFaso_Sample20" et "09_Visualization_Senegal_Sample20" présentent un échantillon de la visualisation des annotations supervisées sur une vingtaine de documents en format HTML. "10_Code_FoodSecurity_AnnotationPipeline" en format IPYNB contient le code utilisé pour l'extraction d'entités thématiques, spatio-temporelles et l'analyse de sentiment. "11_Corpus_Contenu_BurkinaFaso405" et “12_Corpus_Contenu_Senegal689” présentent le contenu des articles de presse, y compris leurs titres, et l’identifiant unique correspondant. Diffusion restreinte. Le dossier compressé ZIP "13_Annotations_Manuelles_Analyse_Sentiment_Phrases" contient 270 phrases du corpus de journaux burkinabés et le sentiment (positif = 1, négatif = -1, neutre = 0) annoté manuellement, sous format JSONL, et le code Python en format IPYNB pour évaluer les performances des modèles d’analyse de sentiment. Le fichier TAB“14_Annotations_Manuelles_Phase_Geo_Scope” contient les annotations au niveau du document de 405 articles de presse burkinabés issues de deux tâches: la phase d'apparition de la crise (colonne 'phase') qui dénote si l'article décrit une situation qui se passe avant (1), durant (2) ou après (3) une crise alimentaire, ou si l'article n'est pas pertinent pour le domaine de sécurité alimentaire (0). Nous avons aussi annoté la portée géographique (colonne 'geo') qui dénote si l'article mentionne le niveau plus petit des types d'entités spatiales trouvées dans l'article. Par exemple, si un article contient des entités de province, de pays et de villes, on a annoté "commune". Le fichier "README" présente une introduction à l’utilisation du code d’extraction d’informations et la description technique et spécifique des différentes méthodes d’extraction et leur visualisation. Le code de notre méthode d'extraction est également disponible sur le repositoire GitHub de notre laboratoire UMR Tetis https://github.com/tetis-nlp/food-insecurity-risk-mining
提供机构:
Recherche Data Gouv
创建时间:
2024-07-29
二维码
社区交流群
二维码
科研交流群
商业服务