Enhanced Spatial Disambiguation in the GeoVirus Dataset Using SNEToolkit
收藏Recherche Data Gouv France2024-01-01 更新2026-04-09 收录
下载链接:
https://entrepot.recherche.data.gouv.fr/citation?persistentId=doi:10.57745/2RUX6W
下载链接
链接失效反馈官方服务:
资源简介:
(English version below) Ce jeu de données est une version étendue de la base de données GeoVirus, qui comprend 229 articles de WikiNews sur les épidémies mondiales, dont les entités spatiales nommées (SNE) sont manuellement annotées par des experts, avec leurs coordonnées et noms. Nous avons intégré un processus automatique d'extraction et de désambiguïsation des SNE, lequel a été aligné avec les données annotées par les experts. Ce processus a impliqué une corrélation de 1,360 SNE identifiées à la fois dans notre extraction automatique et dans l'ensemble de données annoté par les experts, garantissant ainsi précision et cohérence dans l'identification spatiale. Le corpus résultant est une extension de la base GeoVirus originale, enrichie de trois colonnes supplémentaires présentant les annotations spatiales automatiques. GeoVirus dataset: Gritta, Milan, Mohammad Taher Pilehvar, and Nigel Collier. "Which melbourne? augmenting geocoding with maps." Association for Computational Linguistics, 2018. Ce jeu de données amélioré non seulement préserve l'intégrité des annotations expertes, mais démontre également l'efficacité de notre processus automatique, comme en témoigne le taux de rappel de 0.911 de notre approche, surpassant nettement le taux de rappel de 0.871 du géocodeur standard Geonames. Ce jeu de données comprend un seul fichier: sne_data.csv. Il est constitué des colonnes suivantes: source : Lien url WikiNews fourni dans les données GeoVirus input_sne: Entité nommée spatiale extraite avec Spacy à partir des données brutes (document). Utilisée comme entrée pour Geonames true_country_code: Code pays obtenu par géocodage inverse, basé sur la latitude et la longitude fournies output_sne: Entité nommée spatiale renvoyée par Geonames predicted_country_code: Code pays correspondant à l'output_sne après désambiguïsation disamb_phase: Correspond à la phase de désambiguïsation qui a aidé à désambiguïser l'entité nommée spatiale saisie -------- This dataset is an extended version of the GeoVirus database, which includes 229 WikiNews articles on global epidemics. Named Spatial Entities (SNEs) in these articles are manually annotated by experts, complete with their coordinates and names. We integrated an automated process for SNE extraction and disambiguation, aligning it with the data annotated by experts. This involved correlating 1,360 SNEs identified both in our automatic extraction and the expert-annotated dataset, ensuring precision and consistency in spatial identification. The resulting corpus is an extension of the original GeoVirus base, enriched with three additional columns presenting automatic spatial annotations. GeoVirus dataset reference: Gritta, Milan, Mohammad Taher Pilehvar, and Nigel Collier. "Which Melbourne? Augmenting geocoding with maps." Association for Computational Linguistics, 2018. This enhanced dataset not only preserves the integrity of expert annotations but also demonstrates the effectiveness of our automated process, evidenced by the recall rate of 0.911 in our approach, significantly surpassing the standard Geonames geocoder's recall rate of 0.871. The dataset consists of a single file: sne_data.csv. It includes the following columns: source: WikiNews URL provided in the GeoVirus data. input_sne: Spatial Named Entity extracted with Spacy from raw data (document). Used as input for Geonames. true_country_code: Country code obtained through reverse geocoding based on provided latitude and longitude. output_sne: Spatial Named Entity returned by Geonames. predicted_country_code: Country code corresponding to output_sne after disambiguation. disamb_phase: Corresponds to the disambiguation phase that aided in disambiguating the entered spatial named entity.
创建时间:
2024-01-01



