TDM Evaluation Dataset - entityTag
收藏DataCite Commons2026-04-08 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/tdm-eval-dataset-ner/v3
下载链接
链接失效反馈官方服务:
资源简介:
Il s'agit des données associées à la publication de Joel Nothman, Nicky Ringland, Will Radford, Tara Murphy et James R. Curran (2013), « Learning multilingual named entity recognition from Wikipedia », Artificial Intelligence 194 (DOI:10.1016/j.artint.2012.03.006). Prépublication disponible sur ScienceDirect : https://www.sciencedirect.com/science/article/pii/S0004370212000276Description du corpusWikiNER est un corpus multilingue de référence annoté pour la reconnaissance d'entités nommées (NER), construit par extraction automatique massive d'articles Wikipédia dont le texte et la structure hyperlien ont été exploités. Les entités sont classées selon quatre catégories : LOC (location, lieu), PER (person, personne), ORG (organization, organisation) et MISC (miscellaneous, divers).L'objectif était de constituer automatiquement un vaste corpus multilingue pour contourner le knowledge bottleneck, le « goulot d'étranglement de la connaissance », qui désigne la dépendance des systèmes NER supervisés à des données annotées manuellement, coûteuses et limitées en volume. La méthode permet de produire d'importants volumes d'annotations dans plusieurs langues sans intervention humaine. La qualité obtenue est dite silver standard : inférieure à celle d'un corpus gold standard annoté manuellement, mais suffisante pour l'entraînement de modèles NER grâce aux très grands volumes de données générés.Le corpus couvre neuf langues : l'allemand, l'anglais, l'espagnol, le français, l'italien, le néerlandais, le polonais, le portugais et le russe.Les versions anglaise et française ont notamment servi à l'entraînement du web service entityTag développé à l'Inist-CNRS.Taille du corpusL’ensemble des données représente environ 31 millions de tokens toutes langues confondues, ce qui en fait une ressource d’entraînement massive pour des modèles NER multilingues. Chaque sous-corpus par langue contient environ 3,5 millions de tokens (voir table 13) et, pour la version mise à disposition ici (WP3), les annotations sont réparties sur 455 063 articles au total.Répartition des entités dans le corpusLa répartition ci-dessous est calculée sur les seules entités nommées (LOC, PER, ORG, MISC), à l'exclusion des non-entités (NON) et des pages de désambiguïsation (DAB). Elle est donnée à titre indicatif pour le corpus français ; les valeurs varient selon la langue et la méthode d'échantillonnage (voir Table 5 de l'article).Type Description Part approximativeLOC Lieux 48 %PER Personnes 35 %MISC Divers 10 %ORG Organisations 7 %Cette distribution, caractéristique des corpus encyclopédiques issus de Wikipédia, contraste avec les corpus journalistiques (type CoNLL 2003) où les organisations et les personnes sont nettement mieux représentées.FormatLes données originales de WikiNER sont distribuées dans un format pipe-delimited (délimité par des barres verticales |). Chaque phrase occupe une seule ligne ; les tokens sont séparés par des espaces et chaque token est composé de trois champs séparés par | :TOKEN|POS|NERExemple (français, format source)En|PRP|O 1905|NUM|O ,|PUN|O il|PRO:PER|O occupe|VER:pres|O la|DET:ART|O chaire|NOM|O de|PRP|O grammaire|NOM|O comparée|ADJ|O au|PRP:det|O Collège|NAM|I-LOC de|PRP|I-LOC France|NAM|I-LOC ,|PUN|O où|VER:pper|O il|PRO:PER|O consacre|VER:pres|O ses|DET:POS|O cours|NOM|O à|VER:pper|O l'|DET:ART|O histoire|NOM|O et|KON|O à|NOM|O la|DET:ART|O structure|NOM|O des|PRP:det|O langues|NOM|O indo-européennes|ADJ|O .|SENT|OIl|PRO:PER|O a|VER:pres|O formé|VER:pper|O toute|PRO:IND|O une|DET:ART|O génération|NOM|O de|PRP|O linguistes|NOM|O français|ADJ|O ,|PUN|O parmi|PRP|O lesquels|PRO:REL|O Emile|NAM|I-PER Benveniste|NAM|I-PER ,|PUN|O Marcel|NAM|I-PER Cohen|NAM|I-PER ,|PUN|O Georges|NAM|I-PER Dumézil|NAM|I-PER ,|PUN|O André|NAM|I-PER Martinet|NAM|I-PER ,|PUN|O Aurélien|NAM|I-PER Sauvageot|NAM|I-PER ,|PUN|O Lucien|NAM|I-PER Tesnière|NAM|I-PER ,|PUN|O Joseph|NAM|I-PER Vendryes|NAM|I-PER .|SENT|OLes données mises à disposition ici ont été converties au format CoNLL 2003, qui est le format texte tabulaire de référence pour les tâches NER. Cette conversion implique deux transformations :1. Mise en forme tabulaire : chaque token est placé sur sa propre ligne avec ses étiquettes séparées par des tabulations, et une ligne vide sépare chaque phrase :TOKEN POS NER2. Conversion du schéma d'étiquetage IOB1 vers BIO2 : dans le format source WikiNER, le schéma utilisé est IOB1 : le premier token d'une entité porte l'étiquette I-XXX, sauf lorsque deux entités de même type se suivent. Le format CoNLL 2003 attend du BIO2 : le premier token de toute entité porte obligatoirement B-XXX, quelle que soit l'entité précédente. Chaque I-XXX en début d'entité a donc été converti en B-XXX.Schéma Premier token d'entité Token suivant Hors entitéIOB1 (source) I-PER I-PER OBIO2 (cible) B-PER I-PER OExemple (français, format CoNLL après conversion) :En PRP O1905 NUM O, PUN Oil PRO:PER Ooccupe VER:pres Ola DET:ART Ochaire NOM Ode PRP Ogrammaire NOM Ocomparée ADJ Oau PRP:det OCollège NAM B-LOCde PRP I-LOCFrance NAM I-LOC, PUN Ooù VER:pper Oil PRO:PER Oconsacre VER:pres Oses DET:POS Ocours NOM Oà VER:pper Ol' DET:ART Ohistoire NOM Oet KON Oà NOM Ola DET:ART Ostructure NOM Odes PRP:det Olangues NOM Oindo-européennes ADJ O. SENT OIl PRO:PER Oa VER:pres Oformé VER:pper Otoute PRO:IND Oune DET:ART Ogénération NOM Ode PRP Olinguistes NOM Ofrançais ADJ O, PUN Oparmi PRP Olesquels PRO:REL OEmile NAM B-PERBenveniste NAM I-PER, PUN OMarcel NAM B-PERCohen NAM I-PER, PUN OGeorges NAM B-PERDumézil NAM I-PER, PUN OAndré NAM B-PERMartinet NAM I-PER, PUN OAurélien NAM B-PERSauvageot NAM I-PER, PUN OLucien NAM B-PERTesnière NAM I-PER, PUN OJoseph NAM B-PERVendryes NAM I-PER. SENT OTélécharger les donnéesNous mettons à disposition les fichiers wp3, qui correspondent au niveau d'inférence de liens le plus élevé : en plus des hyperliens explicites de Wikipédia, des heuristiques permettent d'annoter les occurrences ultérieures d'une entité dans un article, même lorsqu'elles ne sont pas liées. Ces fichiers contiennent donc un plus grand nombre d'entités annotées que les fichiers wp2, qui se limitent aux seuls liens hypertextes explicites. Les deux versions sont des corpus silver standard. Exemple pour Barack Obama : « Barack Obama » « Obama » « The President » « U.S. President Obama » etc.Toutes les données ont été converties au format texte (UTF-8).Origine des donnéeshttps://github.com/dice-group/FOX/tree/master/input/WikinerMots clésNamed entity recognition wikipedia wikinert raining data silver standard semi-supervised Computational Linguistics Knowledge Representation and Machine Learning Natural Language Processing
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11



