BiScope_Data

Hugging Face2025-03-27 更新2025-03-28 收录

下载链接：

https://huggingface.co/datasets/HanxiGuo/BiScope_Data

下载链接

链接失效反馈

官方服务：

资源简介：

BiScope数据集是一个包含人类编写和AI生成文本样本的数据集，用于AI生成文本检测。它包括来自多个任务（如Arxiv、Yelp、Essay、Creative和Code）的样本，AI生成文本由不同的生成模型（如gpt-3.5-turbo、gpt-4-turbo-preview等）产生，同时包含未改写和改写两种形式。数据集可用于检测语言模型对前缀标记的记忆程度，以区分AI生成文本和人类编写文本。

创建时间：

2025-03-18

原始信息汇总

数据集概述：BiScope_Data

基本信息

许可证: CC-BY-NC-ND 4.0
任务类别: 文本分类、零样本分类
语言: 英语
数据规模: 10K < n < 100K

数据集描述

BiScope是一个用于检测AI生成文本的数据集，通过测量语言模型对前文标记的记忆程度来实现。数据集包含以下内容：

人类撰写文本: 非改写形式
AI生成文本: 提供非改写和改写两种形式

任务来源

Arxiv
Yelp
Essay
Creative
Code

生成模型

gpt-3.5-turbo
gpt-4-turbo-preview
claude-3-sonnet
claude-3-opus
gemini-1.0-pro

数据配置

AI生成文本共有50种配置，由以下因素组合而成：

改写类型: 改写或非改写
任务: Arxiv、Yelp、Essay、Creative、Code
生成模型: gpt-3.5-turbo、gpt-4-turbo-preview、claude-3-sonnet、claude-3-opus、gemini-1.0-pro

使用方式

可通过Hugging Face datasets库加载特定配置数据，示例代码已提供。

引用

如需使用该数据集，请引用相关论文： bibtex @article{guo2024biscope, title={BiScope: AI-generated Text Detection by Checking Memorization of Preceding Tokens}, author={Guo, Hanxi and Cheng, Siyuan and Jin, Xiaolong and Zhang, Zhuo and Zhang, Kaiyuan and Tao, Guanhong and Shen, Guangyu and Zhang, Xiangyu}, journal={Advances in Neural Information Processing Systems (NeurIPS)}, volume={37}, pages={104065--104090}, year={2024} }

搜集汇总

数据集介绍

构建方式

在人工智能生成文本检测领域，BiScope数据集通过系统化采集多源文本构建而成。该数据集整合了来自Arxiv学术论文、Yelp评论、Essay文章、Creative创意写作和Code编程代码五大任务的文本样本，同时包含人类撰写文本和AI生成文本的双重对比。AI生成部分采用五种前沿大语言模型（包括GPT和Claude系列）生成，并通过是否经过改写形成50种组合配置，人类文本则统一采用原始未改写版本，确保数据对比的严谨性。

使用方法

通过Hugging Face平台可便捷访问BiScope数据集，其结构化存储方式支持灵活的样本筛选。研究人员可基于任务类型（如Arxiv）、文本来源（人类或特定AI模型）以及改写状态等字段进行组合查询，例如提取GPT-3.5生成未改写的学术论文文本。数据集采用标准train划分，配合Python的datasets库可实现快速加载和条件过滤，每个文本样本均附带完整的元数据标注，为检测模型的训练与评估提供完整上下文。

背景与挑战

背景概述

BiScope数据集由Hanxi Guo等学者在2024年NeurIPS会议上提出，旨在通过检测语言模型对前序标记的记忆程度来识别AI生成文本。该数据集由人类撰写和多种AI模型生成的文本样本构成，涵盖学术论文、商业评论、创意写作等多样化任务场景。研究团队来自普渡大学等知名机构，其创新性在于首次系统性地量化了语言模型在生成过程中的记忆行为特征，为数字内容真实性认证提供了新的方法论基础。作为首个融合多任务、多模型、多形态生成文本的基准数据集，BiScope对自然语言处理领域的机器写作检测研究具有里程碑意义。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，AI生成文本的检测需克服模型迭代带来的概念漂移问题，特别是GPT-4、Claude-3等先进模型生成的具有人类风格文本的判别；同时，经过改写的生成文本会显著降低传统检测器的准确率。在构建过程中，研究团队需要平衡数据多样性（5种任务×5种模型×2种改写状态）与标注一致性，确保人类撰写文本与机器生成文本在主题、风格上的可比性。此外，代码生成等特殊任务中语法结构的差异性也为统一检测框架的设计带来挑战。

常用场景

经典使用场景

在自然语言处理领域，BiScope数据集为AI生成文本检测提供了重要基准。该数据集通过整合人类撰写与多种AI模型生成的文本样本，覆盖学术论文、商业评论、创意写作等多元场景，特别适合用于训练和评估检测模型对文本来源的识别能力。其经典应用体现在研究者可利用不同任务和模型生成的文本组合，系统分析语言模型记忆前文标记的模式差异。

解决学术问题

BiScope有效解决了生成文本溯源的关键学术挑战。传统方法难以区分经改写后的AI生成内容，而该数据集通过提供原始与改写文本的平行语料，支持开发基于记忆模式分析的检测算法。这为理解语言模型内部工作机制提供了新视角，同时推动了对模型泛化性与记忆特性的定量研究，对数字内容真实性认证领域具有里程碑意义。

实际应用

在教育评估和内容审核等实际场景中，BiScope展现出显著价值。学术机构可利用其检测学生论文是否存在AI代写行为，社交媒体平台则能识别机器生成的虚假评论。数据集涵盖GPT、Claude等主流模型的输出，使得开发的检测工具具备应对多样化生成文本的实战能力，为网络信息生态治理提供技术支撑。

数据集最近研究