five

TDM Evaluation Dataset - entityTag

收藏
DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/tdm-eval-dataset-ner/v2.1
下载链接
链接失效反馈
官方服务:
资源简介:
Il s'agit des données associées à la publication de Joel Nothman, Nicky Ringland, Will Radford, Tara Murphy et James R. Curran (2013), « Learning multilingual named entity recognition from Wikipedia », Artificial Intelligence 194 (DOI : 10.1016/j.artint.2012.03.006).Prépublication disponible ici https://www.sciencedirect.com/science/article/pii/S0004370212000276?via%3DihubDescription du corpusWikiNER est un corpus de référence multilingue, annoté pour la reconnaissance d'entités nommées, basé sur l'extraction massive d'articles de Wikipédia, dont le texte et la structure ont été automatiquement exploités. Les entités sont classées selon 4 catégories principales :LOC (location), PER (person), ORG (organization), MISC (miscellaneous).L'objectif était de créer automatiquement un vaste corpus multilingue, en s'affranchissant des contraintes imposées par les systèmes NER modernes. Les auteurs appellent cela le "knowledge bottleneck" : le "goulot d'étranglement de la connaissance".Cette méthode permet de produire d'énormes volumes d'annotations, dans plusieurs langues, sans annotation manuelle, avec une qualité "silver-standard", d'une qualité moindre qu'un corpus "gold-standard" mais suffisante pour l'entraînement d'un modèle grâce à la génération d'un volume très important de données d'entraînement.Il couvre neuf langues : l'allemand, l'anglais, l'espagnol, le français, le italien, le néerlandais, le polonais, le portugais et le russe.Les versions anglaise et française ont notamment servi à l'entraînement du web service entityTag développé à l'Inist-CNRS.Répartition des entités dans le corpusLOC ~ 50 %PER ~ 35 %ORG ~ 10 %Taille du corpusL'ensemble des données représente près de 60 millions de tokens toutes langues confondues, ce qui en fait une ressource d’entraînement massive pour des modèles NER multilingues.Chacun des corpus d'entraînement contient 3,5 millions de tokens.FormatLe format est un format “pipe-delimited” (délimité par des barres verticales), convertible en format CoNLL 2003 via le script system2conll.plLe format des données suit un format proche de CoNLL, où chaque ligne contient un mot unique (token) et deux étiquettes, le tout séparé par une tabulation :un token par ligneune étiquette POS (partie du discours)une étiquette IOB suivie d'un tag NER (PER, LOC, ORG, MISC)Exemple (français) :En|PRP|O conséquence|NOM|O ,|PUN|O Meillet|NAM|I-PER présente|VER:pres|O Parry|NAM|I-PER à|ABR|O Matija|NOM|I-PER Murko|NAM|I-PER ,|PUN|O savant|NOM|O originaire|ADJ|O de|PRP|O Slovénie|NAM|I-LOC qui|PRO:REL|O avait|VER:impf|O longuement|ADV|O écrit|VER:pper|O sur|PRP|O la|DET:ART|O tradition|NOM|O héroïque|VER:subp|O épique|ADJ|O dans|PRP|O les|DET:ART|O Balkans|NAM|I-LOC ,|PUN|O surtout|ADV|O en|PRP|O Bosnie-Herzégovine|NAM|I-LOC .|SENT|OTélécharger les donnéesChaque langue est pourvue de deux fichiers : wp2 et wp3, correspondant chacun à différents niveaux d'enrichissement. wp2 utilise un niveau standard d'inférence de liens.wp3 utilise un niveau plus élevé d'inférence de liens, c'est à dire qu'il établit davantage de connexions entre les éléments du texte (par exemple entre des pages, des hyperliens ou des entités), afin d'enrichir le corpus.Exemple pour Barack Obama :« Barack Obama »« Obama »« The President »« U.S. President Obama »etc.Toutes les données ont été converties au format texte.Origine des donnéeshttps://github.com/dice-group/FOX/tree/master/input/WikinerMots clésNamed entity recognition wikipedia wikinert raining data silver standard semi-supervised Computational Linguistics Knowledge Representation and Machine Learning Natural Language Processing
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作