TDM Evaluation Dataset - entityTag
收藏DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/tdm-eval-dataset-ner/v2.1
下载链接
链接失效反馈官方服务:
资源简介:
Il s'agit des données associées à la publication de Joel Nothman, Nicky Ringland, Will Radford, Tara Murphy et James R. Curran (2013), « Learning multilingual named entity recognition from Wikipedia », Artificial Intelligence 194 (DOI : 10.1016/j.artint.2012.03.006).Prépublication disponible ici https://www.sciencedirect.com/science/article/pii/S0004370212000276?via%3DihubDescription du corpusWikiNER
est un corpus de référence multilingue, annoté pour la reconnaissance d'entités
nommées, basé sur
l'extraction massive d'articles de Wikipédia, dont le texte et la
structure ont été automatiquement exploités. Les entités sont classées selon 4 catégories principales :LOC (location), PER (person), ORG (organization), MISC (miscellaneous).L'objectif était de créer automatiquement un vaste corpus multilingue, en s'affranchissant des contraintes imposées par les systèmes NER modernes. Les auteurs appellent cela le "knowledge bottleneck" : le "goulot d'étranglement de la connaissance".Cette méthode permet de produire d'énormes volumes d'annotations, dans plusieurs langues, sans annotation manuelle, avec une qualité "silver-standard", d'une qualité moindre qu'un corpus "gold-standard" mais suffisante pour l'entraînement d'un modèle grâce à la génération d'un volume très important de données d'entraînement.Il
couvre neuf langues : l'allemand, l'anglais, l'espagnol, le français, le
italien, le néerlandais, le polonais, le portugais et le russe.Les versions anglaise et française ont notamment servi à l'entraînement du web service entityTag développé à l'Inist-CNRS.Répartition des entités dans le corpusLOC ~ 50 %PER ~ 35 %ORG ~ 10 %Taille du corpusL'ensemble des données représente près de 60 millions de tokens toutes langues confondues, ce qui en fait
une ressource d’entraînement massive pour des modèles NER multilingues.Chacun des corpus d'entraînement contient 3,5 millions de tokens.FormatLe format est un format “pipe-delimited” (délimité par des barres verticales), convertible en format CoNLL 2003 via le script system2conll.plLe
format des données suit un format proche de CoNLL, où chaque ligne contient un mot unique (token) et deux étiquettes, le tout séparé par une tabulation :un token par ligneune étiquette POS (partie du discours)une étiquette IOB suivie d'un tag NER (PER, LOC, ORG, MISC)Exemple (français) :En|PRP|O conséquence|NOM|O ,|PUN|O Meillet|NAM|I-PER présente|VER:pres|O Parry|NAM|I-PER à|ABR|O Matija|NOM|I-PER Murko|NAM|I-PER ,|PUN|O savant|NOM|O originaire|ADJ|O de|PRP|O Slovénie|NAM|I-LOC qui|PRO:REL|O avait|VER:impf|O longuement|ADV|O écrit|VER:pper|O sur|PRP|O la|DET:ART|O tradition|NOM|O héroïque|VER:subp|O épique|ADJ|O dans|PRP|O les|DET:ART|O Balkans|NAM|I-LOC ,|PUN|O surtout|ADV|O en|PRP|O Bosnie-Herzégovine|NAM|I-LOC .|SENT|OTélécharger les donnéesChaque langue est pourvue de deux fichiers : wp2 et wp3, correspondant chacun à différents niveaux d'enrichissement. wp2 utilise un niveau standard d'inférence de liens.wp3 utilise un niveau plus élevé d'inférence de liens, c'est à dire qu'il établit davantage de connexions entre les éléments du texte (par exemple entre des pages, des hyperliens ou des entités), afin d'enrichir le corpus.Exemple pour Barack Obama :« Barack Obama »« Obama »« The President »« U.S. President Obama »etc.Toutes les données ont été converties au format texte.Origine des donnéeshttps://github.com/dice-group/FOX/tree/master/input/WikinerMots clésNamed entity recognition wikipedia wikinert raining data silver standard semi-supervised Computational Linguistics Knowledge Representation and Machine Learning Natural Language Processing
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11



