five

TDM Evaluation Dataset - bibCheck

收藏
DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/eval-dataset-bibcheck/v1
下载链接
链接失效反馈
官方服务:
资源简介:
Description du corpusLe corpus d'évaluation bibCheck a été construit dans le but d'évaluer la qualité du web service bibCheck, chargé de déterminer la validité d'une référence bibliographique. Ce web service vérifie une référence bibliographique donnée en s'assurant de sa présence dans Crossref ou DataCite, tout en veillant à ce que l'article ne soit ni rétracté ni halluciné, à l'aide du Problematic Paper Screener (PPS).Contenu du corpusLe corpus est au format jsonl et contient 236 références bibliographiques, de 4 types différents :51 références bibliographiques valides avec un doi.55 références bibliographiques valides sans doi.70 références bibliographiques hallucinées générées par les LLM.60 références bibliographiques rétractées.Source des référencesLes références bibliographiques valides avec et sans doi proviennent de Crossref. Une simple suppression du DOI de 55 références a donc été effectuée pour constituer les "références bibliographiques valides sans doi".Les références bibliographiques hallucinées générées par les LLM : elles ont été soit collectées dans de précédents travaux portant sur les références hallucinées (Chelli et al., 2024) (Alkassi and McFarlane, 2023), soit manuellement modifiées, à l'aide de l'une ou de plusieurs de ces opérations :-modification du doi ou interversion du doi avec celui d'une référence d'un sujet proche dans le même domaine.-ajout d'auteurs potentiels et/ou suppression d'auteurs associés à l'article.-modification de la date de parution, modification des numéros de pages concernés ou modification du nom de la revue.Les références bibliographiques rétractées proviennent de PubMed.ContexteAvec l'évolution des méthodes de génération de texte, notamment avec l'arrivée des grands modèles de langues (LLM), les communautés scientifiques sont confrontées à un nombre croissant d'articles générés par l'IA. Le nombre d'articles scientifiques partiellement générés par l'IA varie selon le domaine d'étude, mais pourrait atteindre 22% des articles sur les "computational sciences" entre 2020 et 2024 selon Liang et al., 2025. D'autre part, l'évolution des méthodes génératives pose un autre problème : celui des fausses références, générées aléatoirement par les LLM, que nous appelons ici « références hallucinées ». Plus précisément, une hallucination est décrite dans cette étude (Cossio, 2025) comme une génération de contenu plausible mais factuellement incorrect, incohérent ou entièrement fabriqué.C'est dans ce contexte que le besoin d'un algorithme de vérification de références bibliographiques émerge. D'une part pour éviter la citation d'articles rétractés, de l'autre pour repérer les fausses références et à fortiori les articles entièrement générés par IA. En effet, un article entièrement généré par l'IA comporte des références générées par l'IA : cela a été remarqué par de nombreux auteurs (Alkassi and McFarlane, 2023) (Gravel et al., 2023) (Eiko, 2023) et étudié par (Chelli et al., 2024). L'étude de (Tramèr, 2025) montre l'évolution des citations générées par les LLM sur arXiv.
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作