TDM Evaluation Dataset - bibCheck
收藏DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/eval-dataset-bibcheck/v1
下载链接
链接失效反馈官方服务:
资源简介:
Description du corpusLe corpus d'évaluation bibCheck a été
construit dans le but d'évaluer la qualité du web service bibCheck, chargé de déterminer la validité d'une référence
bibliographique. Ce web service vérifie une référence bibliographique
donnée en s'assurant de sa présence dans Crossref ou DataCite, tout en
veillant à ce que l'article ne soit ni rétracté ni halluciné, à l'aide du Problematic Paper Screener (PPS).Contenu du corpusLe corpus est au format jsonl et contient 236 références bibliographiques, de 4 types différents :51 références bibliographiques valides avec un doi.55 références bibliographiques valides sans doi.70 références bibliographiques hallucinées générées par les LLM.60 références bibliographiques rétractées.Source des référencesLes références bibliographiques valides avec et sans doi proviennent de Crossref. Une simple suppression du DOI de 55 références a donc été effectuée pour constituer les "références bibliographiques valides sans doi".Les références bibliographiques hallucinées générées par les LLM : elles
ont été soit collectées dans de précédents travaux portant sur les
références hallucinées (Chelli et al., 2024) (Alkassi and McFarlane, 2023), soit manuellement modifiées, à l'aide de l'une ou de plusieurs de ces opérations :-modification du doi ou interversion du doi avec celui d'une référence d'un sujet proche dans le même domaine.-ajout d'auteurs potentiels et/ou suppression d'auteurs associés à l'article.-modification de la date de parution, modification des numéros de pages concernés ou modification du nom de la revue.Les références bibliographiques rétractées proviennent de PubMed.ContexteAvec l'évolution des méthodes de génération de texte, notamment avec l'arrivée des grands modèles de langues (LLM), les communautés scientifiques sont confrontées à un nombre croissant d'articles générés par l'IA. Le nombre d'articles scientifiques partiellement générés par l'IA varie selon le domaine d'étude, mais pourrait atteindre 22% des articles sur les "computational sciences" entre 2020 et 2024 selon Liang et al., 2025. D'autre part, l'évolution des méthodes génératives pose un autre problème : celui des fausses références, générées aléatoirement par les LLM, que nous appelons ici « références hallucinées ». Plus précisément, une hallucination est décrite dans cette étude (Cossio, 2025) comme une génération de contenu plausible mais factuellement incorrect, incohérent ou entièrement fabriqué.C'est dans ce contexte que le besoin d'un algorithme de vérification de références bibliographiques émerge. D'une part pour éviter la citation d'articles rétractés, de l'autre pour repérer les fausses références et à fortiori les articles entièrement générés par IA. En effet, un article entièrement généré par l'IA comporte des références générées par l'IA : cela a été remarqué par de nombreux auteurs (Alkassi and McFarlane, 2023) (Gravel et al., 2023) (Eiko, 2023) et étudié par (Chelli et al., 2024). L'étude de (Tramèr, 2025) montre l'évolution des citations générées par les LLM sur arXiv.
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11



