TDM Evaluation Dataset - bibCheck

Name: TDM Evaluation Dataset - bibCheck
Creator: ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
Published: 2026-02-11 12:37:18
License: 暂无描述

DataCite Commons2026-02-11 更新2026-05-04 收录

下载链接：

https://www.ortolang.fr/market/item/eval-dataset-bibcheck/v1

下载链接

链接失效反馈

官方服务：

资源简介：

Description du corpusLe corpus d'évaluation bibCheck a été construit dans le but d'évaluer la qualité du web service bibCheck, chargé de déterminer la validité d'une référence bibliographique. Ce web service vérifie une référence bibliographique donnée en s'assurant de sa présence dans Crossref ou DataCite, tout en veillant à ce que l'article ne soit ni rétracté ni halluciné, à l'aide du Problematic Paper Screener (PPS).Contenu du corpusLe corpus est au format jsonl et contient 236 références bibliographiques, de 4 types différents :51 références bibliographiques valides avec un doi.55 références bibliographiques valides sans doi.70 références bibliographiques hallucinées générées par les LLM.60 références bibliographiques rétractées.Source des référencesLes références bibliographiques valides avec et sans doi proviennent de Crossref. Une simple suppression du DOI de 55 références a donc été effectuée pour constituer les "références bibliographiques valides sans doi".Les références bibliographiques hallucinées générées par les LLM : elles ont été soit collectées dans de précédents travaux portant sur les références hallucinées (Chelli et al., 2024) (Alkassi and McFarlane, 2023), soit manuellement modifiées, à l'aide de l'une ou de plusieurs de ces opérations :-modification du doi ou interversion du doi avec celui d'une référence d'un sujet proche dans le même domaine.-ajout d'auteurs potentiels et/ou suppression d'auteurs associés à l'article.-modification de la date de parution, modification des numéros de pages concernés ou modification du nom de la revue.Les références bibliographiques rétractées proviennent de PubMed.ContexteAvec l'évolution des méthodes de génération de texte, notamment avec l'arrivée des grands modèles de langues (LLM), les communautés scientifiques sont confrontées à un nombre croissant d'articles générés par l'IA. Le nombre d'articles scientifiques partiellement générés par l'IA varie selon le domaine d'étude, mais pourrait atteindre 22% des articles sur les "computational sciences" entre 2020 et 2024 selon Liang et al., 2025. D'autre part, l'évolution des méthodes génératives pose un autre problème : celui des fausses références, générées aléatoirement par les LLM, que nous appelons ici « références hallucinées ». Plus précisément, une hallucination est décrite dans cette étude (Cossio, 2025) comme une génération de contenu plausible mais factuellement incorrect, incohérent ou entièrement fabriqué.C'est dans ce contexte que le besoin d'un algorithme de vérification de références bibliographiques émerge. D'une part pour éviter la citation d'articles rétractés, de l'autre pour repérer les fausses références et à fortiori les articles entièrement générés par IA. En effet, un article entièrement généré par l'IA comporte des références générées par l'IA : cela a été remarqué par de nombreux auteurs (Alkassi and McFarlane, 2023) (Gravel et al., 2023) (Eiko, 2023) et étudié par (Chelli et al., 2024). L'étude de (Tramèr, 2025) montre l'évolution des citations générées par les LLM sur arXiv.

数据集说明 bibCheck评估数据集旨在评估bibCheck网络服务的质量，该服务用于判定学术参考文献的有效性。该网络服务会对给定的学术参考文献进行校验，通过Problematic Paper Screener（PPS）确认该文献已被Crossref或DataCite收录，同时确保该文章未被撤稿且不存在内容幻觉问题。数据集内容本数据集采用jsonl格式，共包含236条学术参考文献，分为4个类别： 1. 51条带有数字对象标识符（DOI）的有效学术参考文献； 2. 55条无DOI的有效学术参考文献； 3. 70条由大语言模型（LLM）生成的幻觉式学术参考文献； 4. 60条已撤稿的学术参考文献。参考文献来源带有/无DOI的有效学术参考文献均源自Crossref。其中55条有效参考文献通过移除原DOI，构建为“无DOI有效学术参考文献”类别。由大语言模型生成的幻觉式学术参考文献来源分为两类：一是从过往关于幻觉式参考文献的研究（Chelli等人，2024；Alkassi与McFarlane，2023）中采集；二是通过以下一种或多种操作手动修改得到： - 修改DOI，或将其与同领域相近主题的参考文献DOI互换； - 添加潜在作者或移除与该文章关联的原有作者； - 修改发表日期、涉及页码或期刊名称。已撤稿的学术参考文献源自PubMed。研究背景随着文本生成技术的发展，尤其是大语言模型的问世，科学界正面临越来越多由人工智能生成的学术文章。据Liang等人2025年的研究，2020至2024年间，“计算科学”领域中部分由AI生成的学术文章占比可达22%，具体占比因研究领域而异。此外，生成式方法的发展还带来了另一项难题：由大语言模型随机生成的虚假参考文献，即本文所称的“幻觉式参考文献”。根据Cossio（2025）的研究，幻觉现象被定义为生成看似合理但实则不符合事实、逻辑矛盾或完全虚构的内容。正是在此背景下，学术参考文献校验算法的需求应运而生：一方面用于避免引用已撤稿的文章，另一方面用于识别虚假参考文献，进而排查完全由AI生成的学术文章。事实上，多篇由AI完全生成的学术文章均包含AI生成的参考文献，这一现象已被众多学者（Alkassi与McFarlane，2023；Gravel等人，2023；Eiko，2023）所关注，并由Chelli等人（2024）开展了相关研究。Tramèr（2025）的研究则展示了arXiv平台上LLM生成的参考文献的演变趋势。

提供机构：

ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr

创建时间：

2026-02-11

5,000+

优质数据集

54 个

任务类型

进入经典数据集