Novelty Detection Datasets

Name: Novelty Detection Datasets
Creator: 南洋理工大学
Published: 2025-05-30 22:08:13
License: 暂无描述

arXiv2025-05-30 更新2025-06-03 收录

下载链接：

https://anonymous.4open.science/r/NoveltyDetection-10FB/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为科学创新性检测（ND）任务量身定制的基准数据集，具有拓扑闭包性和紧凑性。数据集包括营销和自然语言处理（NLP）两个领域的子集，其中营销领域数据集包含470篇研究文章，NLP领域数据集包含3,533篇论文。数据集构建过程利用大型语言模型（LLM）提取和总结每篇论文的核心贡献、假设和方法论，以提高数据集的紧凑性。数据集旨在解决现有ND方法在资源密集和主观性方面的限制，通过LLM的知识蒸馏框架训练思想检索器，以捕获概念而非文本相似度，从而有效地检测研究思想的新颖性。

This dataset is a tailored benchmark for the Scientific Novelty Detection (ND) task, featuring topological closure and compactness. It comprises two subsets from the marketing and Natural Language Processing (NLP) domains: the marketing subset contains 470 research articles, while the NLP subset includes 3,533 academic papers. During the dataset construction process, Large Language Models (LLMs) were utilized to extract and summarize the core contributions, hypotheses, and methodologies of each paper, thereby enhancing the dataset's compactness. This dataset aims to address the limitations of existing ND methods in terms of resource intensiveness and subjectivity. It trains a thought retriever through the knowledge distillation framework of LLMs to capture conceptual rather than textual similarity, thus effectively detecting the novelty of research ideas.

提供机构：

南洋理工大学

创建时间：

2025-05-30

搜集汇总

数据集介绍

构建方式

在科学文献爆炸式增长的时代，构建具有拓扑闭合性和紧凑性的数据集对于科学新颖性检测至关重要。本研究通过从市场营销和自然语言处理领域选取种子论文，并利用Semantic Scholar API收集其参考文献，构建了一个闭合的论文语料库。为确保数据集的紧凑性，采用大型语言模型（LLM）对每篇论文的核心贡献、假设和方法进行结构化摘要，从而生成适合新颖性检测任务的高质量数据集。

特点

该数据集具有两大显著特点：首先，通过确保语料库的拓扑闭合性，避免了因缺失相关论文而导致新颖性误判的问题；其次，利用LLM生成的紧凑摘要，使得数据集能够高效捕捉论文的核心思想，而非表面文本特征。此外，数据集覆盖市场营销和NLP两大领域，分别包含12,832篇和33,911篇论文，为跨领域研究提供了丰富资源。

使用方法

该数据集支持两种主要应用：研究思想检索和新颖性检测任务。用户可首先使用基于LLM知识蒸馏的检索器获取与目标思想最相关的候选论文，随后通过设计的结构化提示引导LLM进行交叉验证，输出新颖性评分。为提高检测准确性，建议采用监督决策树分类器从数据中学习非线性决策规则。对于最佳性能，推荐使用deepseek-reasoner作为LLM骨干，并设置适中的检索规模（如5-10篇候选论文）。

背景与挑战

背景概述

Novelty Detection Datasets是由南洋理工大学、新加坡科技设计大学以及新加坡科技研究局的研究人员于2025年提出的科学新颖性检测基准数据集。该数据集旨在解决科学文献爆炸式增长背景下，识别真正新颖研究思路的关键挑战。数据集包含市场营销和自然语言处理两大领域，通过构建具有拓扑闭合性和紧凑性的论文语料库，确保了对研究新颖性评估的完整性。核心创新在于利用大语言模型生成结构化摘要，并基于论文关系提取闭包集合，为科学新颖性检测研究提供了重要基准。

当前挑战

该数据集面临的主要挑战体现在两个方面：领域问题层面，科学新颖性检测存在文本相似性与概念相似性之间的鸿沟，传统检索方法难以准确捕捉研究思路层面的相似性；构建过程层面，需解决语料库闭合性保障（避免遗漏相关论文导致误判）、研究思路的紧凑表示（需平衡信息完整性与计算效率）以及大语言模型生成内容的可靠性验证等难题。此外，现有方法多依赖人工专家评估或启发式测量，存在资源密集和主观偏差等问题，亟需开发更客观高效的自动检测方法。

常用场景

经典使用场景

在科学文献爆炸式增长的时代，Novelty Detection Datasets数据集为研究人员提供了一个标准化的基准，用于检测和评估科学论文中的新颖性。该数据集通过构建具有拓扑闭合性和紧凑性的论文语料库，结合大型语言模型（LLM）生成的结构化摘要，使得研究人员能够高效地进行新颖性检测任务。这一数据集在市场营销和自然语言处理（NLP）领域尤为突出，为这两个领域的学术研究提供了重要的数据支持。

衍生相关工作

Novelty Detection Datasets的推出催生了一系列相关研究和工作。例如，SCIMON和MOOSE等研究利用该数据集开发了基于LLM的科学假设生成和验证框架。此外，许多研究团队在该数据集的基础上进一步优化了检索器和新颖性评分算法，提出了多种新颖性检测模型。这些工作不仅扩展了数据集的应用范围，还推动了科学新颖性检测领域的理论和方法创新。

数据集最近研究