retraction

Hugging Face2026-03-09 更新2026-03-10 收录

下载链接：

https://huggingface.co/datasets/HoangHa/retraction

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，每个配置对应不同的AI模型（如OpenAI GPT-5.2、Claude Opus、Qwen等），记录了这些模型对特定问题的回答及相关元数据。主要字段包括：论文ID（paper_id）、引用次数（citation_count）、是否撤稿（is_retracted）、问题ID（question_id）、问题文本（question_text）、回答文本（response_text）、分类标签（classification）以及模型信息（model, provider）。部分配置还包含推理内容（reasoning_content）、重复次数（repetition）、输入输出token计数等扩展字段。数据以训练集（train）形式组织，样本量从1到4775不等，适用于研究AI模型行为、回答质量分析或学术论文相关问答任务。

创建时间：

2026-03-05

原始信息汇总

数据集概述

基本信息

数据集名称: retraction
托管地址: https://huggingface.co/datasets/HoangHa/retraction
配置数量: 17个独立配置

核心内容

数据集包含多个大语言模型对学术论文撤稿相关问题的回答记录。每个配置对应一个特定模型在特定条件下的输出。

数据结构

通用特征（部分配置存在差异）

paper_id: 论文标识符（字符串）
citation_count: 论文引用次数（整数）
is_retracted: 论文是否被撤稿（布尔值）
question_id: 问题标识符（字符串）
question_text: 问题文本（字符串）
response_text: 模型回答文本（字符串）
response_json: 模型回答的JSON格式（字符串或空值，部分配置为包含paper_is_retracted字段的结构体）
classification: 分类结果（字符串）
reasoning_content: 模型推理内容（字符串或空值）
repetition: 重复次数（整数）
model: 模型名称（字符串）
provider: 模型提供商（字符串）

可选特征（部分配置存在）

input_tokens: 输入令牌数（整数或空值）
output_tokens: 输出令牌数（整数或空值）
web_search_context: 网络搜索上下文（空值）
logprobs: 对数概率（空值，部分配置为包含token、logprob和top_k列表的复杂结构）
mean_logprob: 平均对数概率（浮点数或空值）
min_logprob: 最小对数概率（浮点数或空值）
mean_entropy: 平均熵（浮点数或空值）
max_entropy: 最大熵（浮点数或空值）
temperature: 温度参数（浮点数或空值）
finish_reason: 完成原因（字符串或空值）
elapsed_seconds: 耗时秒数（空值）
run_id: 运行标识符（字符串或空值）
timestamp: 时间戳（字符串或空值）

配置详情

配置名称	示例数量	数据集大小（字节）	下载大小（字节）	备注
20260223_openai_gpt-5.2_A-1_noweb	4,775	1,976,867	167,829
20260223_openrouter_claude-opus-4-6_A-1_noweb	1	690	12,721
20260223_openrouter_moonshotai_Kimi-K2.5_A-1_noweb	10	38,255	36,692
20260223_openrouter_zai-org_GLM-5_A-1_noweb	680	5,866,661	2,193,043
20260223_vertex_gemini-3-pro-preview_A-1_noweb	4,775	3,661,513	809,959
20260223_vllm_Qwen_Qwen3-8B_A-1_noweb	4,775	1,892,663	157,276
20260223_vllm_Qwen_Qwen3.5-397B-A17B_A-1_noweb	4,775	59,025,499	18,959,923
20260223_vllm_allenai_Olmo-3.1-32B-Think_A-1_noweb	4,775	17,644,903	5,941,064
20260223_vllm_google_gemma-3-27b-it_A-1_noweb	4,775	1,978,412	159,648
20260223_vllm_meta-llama_Llama-3.1-8B-Instruct_A-1_noweb	4,775	1,989,391	159,660
20260223_vllm_meta-llama_Llama-3.3-70B-Instruct_A-1_noweb	4,775	2,005,153	158,664
20260223_vllm_mistralai_Ministral-3-14B-Reasoning-2512_A-1_noweb	4,775	2,103,404	159,211
20260223_vllm_nvidia_NVIDIA-Nemotron-3-Nano-30B-A3B-BF16_A-1_noweb	4,775	8,558,357	1,939,743
20260223_vllm_openai_gpt-oss-120b_A-1_noweb	4,775	5,107,186	989,006
20260303_vllm_Qwen_Qwen3.5-9B-Base_A-1_noweb	4,775	1,135,101,722	1,078,988,432	特征结构最完整，包含详细的logprobs信息
20260303_vllm_Qwen_Qwen3.5-9B_A-1_noweb	4,775	908,358,000	858,165,240	特征结构最完整，包含详细的logprobs信息
20260303_vllm_Qwen_Qwen3.5-9B_A-1_web	未提供	未提供	未提供	README文件内容不完整

数据规模

总示例数量（可统计）: 至少 47,770 条记录（各配置示例数之和，最后一个配置未计入）
最大单个配置规模: 20260303_vllm_Qwen_Qwen3.5-9B-Base_A-1_noweb（约1.14 GB）
最小单个配置规模: 20260223_openrouter_claude-opus-4-6_A-1_noweb（690字节）

模型提供商

涉及多个模型提供商，包括：OpenAI、OpenRouter、Vertex、VLLM（集成多个开源模型）。

搜集汇总

数据集介绍

构建方式

在学术诚信研究领域，构建高质量的数据集对于评估大型语言模型在论文撤稿识别任务上的表现至关重要。retraction数据集通过系统化的流程构建而成，其核心方法涉及从预定义的学术论文集合中提取关键元数据，包括论文标识符、引用次数及撤稿状态。随后，针对每篇论文设计标准化的查询问题，并利用多个前沿的大型语言模型生成相应的回答。这些回答涵盖了文本响应、结构化JSON输出以及模型内部的推理过程，从而形成了一个多模型、多维度响应的对比语料库。数据集的构建过程严格记录了模型提供方、输入输出令牌数及重复实验次数等技术细节，确保了数据的可追溯性与可复现性。

特点

该数据集在学术文本分析领域展现出鲜明的特色，其核心在于提供了跨多种主流大型语言模型的并行响应数据。数据集不仅包含模型对论文是否撤稿的最终判断，还细致记录了模型的推理链条、输出概率分布及熵值等深层生成信息。这种设计使得研究者能够从模型决策透明度、逻辑一致性及不确定性量化等多个角度进行深入分析。数据集覆盖了从GPT、Claude到Qwen、Llama等众多架构的模型，构成了一个丰富的横向比较基准。同时，数据条目中整合了论文的学术影响力指标，为探究模型表现与文献特征之间的关联提供了可能。

使用方法

对于致力于评估和提升大型语言模型在学术诚信任务上性能的研究者而言，该数据集提供了标准化的使用路径。用户可通过加载不同的配置名称，访问特定模型在无网络搜索辅助条件下生成的完整响应记录。典型应用包括：利用`classification`字段评估模型判断的准确性；通过`reasoning_content`和`logprobs`等字段分析模型的决策逻辑与置信度；结合`citation_count`等论文特征进行相关性研究。数据集支持对同一批论文在不同模型间的表现进行对比分析，也可用于训练或微调专门的撤稿检测模型。其结构化的响应格式便于进行自动化的性能评估与错误分析。

背景与挑战

背景概述

在学术诚信与科学文献质量评估领域，论文撤稿现象的识别与分析已成为关键议题。Retraction数据集于2026年由相关研究团队构建，旨在通过整合多源大语言模型对学术论文撤稿状态的判断响应，系统探究模型在事实核查任务上的性能与偏差。该数据集的核心研究问题聚焦于评估不同模型在缺乏网络搜索辅助条件下，依据有限信息准确判断论文是否被撤稿的能力，其构建为理解模型在科学文献可信度评估中的泛化性与局限性提供了实证基础，对推动自动化学术监督工具的发展具有显著影响力。

当前挑战

该数据集旨在解决学术文献撤稿状态自动判定的领域挑战，其核心难点在于模型需在缺乏实时外部知识更新的情境下，仅基于静态元数据（如论文ID、引用次数）进行精准推理，这要求模型具备深度的领域知识内化与逻辑推断能力。在构建过程中，挑战体现在多模型响应数据的标准化整合上，不同模型输出的数据结构异构性显著，例如响应文本、JSON格式、推理链条及概率日志等字段的缺失或格式差异，为数据对齐与质量保证带来了复杂性，同时还需确保数千条样本在不同配置间的一致性表征。

常用场景

经典使用场景

在学术诚信与出版伦理领域，该数据集通过整合多源大语言模型对论文撤稿问题的响应，为研究者提供了评估模型在科学事实核查任务中表现能力的基准平台。数据集包含丰富的论文标识、引用计数及撤稿状态标注，结合不同模型生成的问答对与分类结果，使得经典使用场景聚焦于大语言模型在学术文本理解与推理任务上的系统性评测。研究人员可借此分析模型对撤稿信息的识别准确性、逻辑一致性以及在不同复杂度问题上的泛化能力，从而深入探索智能系统处理科学争议信息的机制。

衍生相关工作

围绕该数据集衍生的经典工作主要包括基于多模态注意力机制的撤稿检测模型架构创新，以及针对模型响应不确定性的校准算法研究。部分学者利用数据集的分类标签开发了分层强化学习框架，以提升模型在边缘案例上的判断精度。另有研究聚焦于响应文本的语义熵分析，建立了模型置信度与事实准确性之间的关联模型。这些工作共同推动了学术自然语言处理领域向细粒度事实核查方向的演进，并催生了多个专注于科学文献可信度评估的姊妹数据集。

数据集最近研究