five

Gold Standard du projet MeDo

收藏
DataCite Commons2020-07-22 更新2025-04-16 收录
下载链接:
https://dataverse.ird.fr/citation?persistentId=doi:10.23708/H0VXH0
下载链接
链接失效反馈
官方服务:
资源简介:
Cet ensemble de données comporte les documents utilisés pour l’apprentissage des modules NER (Named Entity Recognition) du projet MeDo (http://webmedo.msem.univ-montp2.fr/?page_id=12). Les documents originaux ont été requêtés sur le web, convertis au format texte et nettoyés. Les fichiers ont été anonymisés en remplaçant les caractères ne correspondant pas aux annotations par des X. Les fichiers .txt correspondent aux fichiers anonymisés (encodage UTF-8). L’annotation a été réalisée avec le logiciel Brat (http://brat.nlplab.org/index.html). Les fichiers .ann correspondent aux résultats de l’annotation manuelle sous Brat. Le guide d'annotation est aussi disponible au téléchargement (https://doi.org/10.23708/DAAKF1). Les mots clés des requêtes, ainsi que les liens URL des documents originaux sont détaillés dans le fichier info.JSON joint à ce dépôt. This dataset contains the documents used to train the NER (Named Entity Recognition) modules of the MeDo project (http://webmedo.msem.univ-montp2.fr/?page_id=228=en). The original documents have been scraped from the web, converted into text format and cleaned. The files were anonymized by replacing all characters not corresponding to the annotations by « x ». The .txt files correspond to the anonymized files (encoded in UTF-8). The annotation was carried out under Brat (http://brat.nlplab.org/index.html). The .ann files correspond to the Brat outputs of the manual annotation. The annotation guide is also available (https://doi.org/10.23708/DAAKF1). The keywords used for the queries and the URL links to the original documents are detailed in the accompanying info.JSON file.
提供机构:
DataSuds
创建时间:
2020-07-22
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作