TDM Evaluation Dataset - softwareTag

Name: TDM Evaluation Dataset - softwareTag
Creator: ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
Published: 2026-04-07 09:55:28
License: 暂无描述

DataCite Commons2026-04-07 更新2026-05-04 收录

下载链接：

https://www.ortolang.fr/market/item/eval-dataset-softwaretag/v1

下载链接

链接失效反馈

官方服务：

资源简介：

Il s'agit des données associées à la publication de David Schindler, Felix Bensmann, Stefan Dietze, and Frank Krüger. 2021. SoMeSci - A 5 Star Open Data Gold Standard Knowledge Graph of Software Mentions in Scientific Articles. In Proceedings of the 30th ACM International Conference on Information amp; Knowledge Management (CIKM ‘21). Association for Computing Machinery, New York, NY, USA, 4574–4583. DOI: https://doi.org/10.1145/3459637.3482017Description du corpusSoMeSci (Software Mentions in Science) est un corpus gold standard sous forme de graphe de connaissances, dédié aux mentions de logiciels dans les articles scientifiques (Schindler, D., Bensmann, F., Dietze, S., amp; Krüger, F. 2021a). Il a été constitué pour répondre à un constat simple : malgré l'existence de principes de citation des logiciels, les mentions de logiciels dans les articles scientifiques sont généralement informelles et souvent incomplètes ; les informations sur le développeur ou la version font souvent totalement défaut. Les variations orthographiques et les erreurs dans les noms de logiciels compliquent en outre leur détection et leur désambiguïsation automatiques. arXiv À notre connaissance, SoMeSci est le corpus le plus complet consacré aux mentions de logiciels dans les articles scientifiques, fournissant des données d'entraînement pour la reconnaissance d'entités nommées (NER), l'extraction de relations, la désambiguïsation d'entités et le liage d'entités. arXivCe corpus a notamment servi à l'évaluation de web service softwareTag, développé par l'Inist-CNRS, web service pour la détection de noms de logiciels sur des textes en anglais.ContenuLe corpus contient des annotations de haute qualité (accord inter-annotateurs : κ = 0,82) portant sur 3 756 mentions de logiciels dans 1 367 articles de PubMed Central. Outre la mention brute du logiciel, des étiquettes de relation sont fournies pour des informations complémentaires telles que la version, le développeur, une URL ou des citations. Le corpus distingue en outre différents types de logiciels, application, plugin ou environnement de programmation, ainsi que différents types de mentions, telles que l'usage ou la création.Le corpus comprend 1 367 documents et 399 942 triplets représentant 47 524 phrases. Les articles sources proviennent tous du sous-ensemble Open Access de PubMed Central (PMC), la plus grande collection d'articles en accès libre. Les domaines principaux des revues indexées dans PMC sont les sciences de la vie, mais certaines revues, comme PLoS, publient également des articles interdisciplinaires.FormatLes sous-ensembles annotés, disponibles dans le dépôt GitHub, sont organisés comme suit : PLoS_methods, PLoS_sentences, Pubmed_fulltext et Creation_sentences.Chaque collection contient, pour chaque article, un fichier .ann (annotations) associé à son fichier texte correspondant.Afin de constituer 3 sous-corpus d’évaluation, nous avons extrait les articles présents dans les fichiers textes de chaque collection. Les 3 corpus finaux mis à disposition correspondent ainsi aux ensembles :PLoS_methods =gt; PLoS_methods_corpus.jsonPLoS_sentences =gt; PLoS_sentences_corpus.jsonPubmed_fulltext =gt; Pubmed_fulltext_corpus.jsonL’ensemble des corpus est fourni au format JSON, chaque entrée représentant un article annoté.Extrait typique du format des données : [ { "id": "PMC1088287", "value": "We examined the cross-sectional relationship between mean population blood pressure, cholesterol [...] using the entire dataset; heterogeneity decreased after excluding all countries that did not fulfill these more stringent criteria." }, { "id": "PMC1657052", "value": "Zebrafish stocks. Stocks of obetc271d and obetd15 were obtained from the Tübingen Stock Centre [...] Yohimbine was added to the breeding tank to a final concentration of 10 μM." }]DonnéesLes données présentées ici proviennent de modifications apportées aux jeux de données issus de Zenodo :version archivée disponible à l’adresse suivante : https://doi.org/10.5281/zenodo.4701764La licence est Creative Commons Attribution (CC BY), autorisant la réutilisation et la redistribution sous condition de citation des auteurs.Références Schindler, D., Bensmann, F., Dietze, S. et Krüger, F. (2021). SoMeSci — A 5 Star Open Data Gold Standard Knowledge Graph of Software Mentions in Scientific Articles. Proceedings of the 30th ACM International Conference on Information amp; Knowledge Management (CIKM '21). ACM, New York, NY, USA, p. 4574–4583. DOI : https://doi.org/10.1145/3459637.3482017 Schindler, D., Zapilko, B. et Krüger, F. (2020). Investigating Software Usage in the Social Sciences: A Knowledge Graph Approach. ESWC 2020: The Semantic Web. Springer, Cham, p. 271–286. DOI : https://doi.org/10.1007/978-3-030-49461-2_16 Schindler, D., Yordanova, K. et Krüger, F. (2019). An annotation scheme for references to research artefacts in scientific publications. 2019 IEEE International Conference on Pervasive Computing and Communications Workshops (PerCom Workshops). IEEE, p. 52–57. DOI : https://doi.org/10.1109/PERCOMW.2019.8730730

提供机构：

ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr

创建时间：

2026-04-07

5,000+

优质数据集

54 个

任务类型

进入经典数据集