ScaleXI AI Abstract Dataset
收藏github2025-05-03 更新2025-05-05 收录
下载链接:
https://github.com/scalexi/scalexi-ai-abstract-dataset
下载链接
链接失效反馈官方服务:
资源简介:
一个用于检测学术摘要中AI生成文本的综合数据集,包含人类撰写和AI生成的摘要,为研究人员提供了宝贵的资源。
A comprehensive dataset for detecting AI-generated text in academic abstracts, which includes both human-written and AI-generated summaries, providing valuable resources for researchers.
创建时间:
2025-05-03
原始信息汇总
ScaleXI AI Abstract Dataset 概述
数据集简介
- 用途:用于训练和评估AI文本检测模型,特别关注学术摘要领域
- 内容:包含人类撰写和AI生成的学术摘要
- 数据来源:arXiv论文和AI生成内容
数据集统计
- 摘要总数:2,010篇
- 人类撰写摘要:1,976篇(98.3%)
- AI生成摘要:34篇(1.7%)
数据结构
可用格式
ai_detection_dataset.csv:CSV格式ai_detection_dataset.jsonl:JSON Lines格式(推荐)
数据字段
source:摘要来源(如"arxiv"、"ai_gpt")title:论文标题abstract:摘要文本authors:作者列表published_date:发布日期categories:学术类别/领域doi:数字对象标识符(AI生成内容可能为null)url:原始论文URL(AI生成内容可能为null)paper_id:论文唯一标识符word_count:摘要字数journal:发表期刊(可能为null)pubmed_id:PubMed标识符(可能为null)ai_generated:是否为AI生成(0=人类,1=AI)metadata:附加元数据(仅JSONL格式)
使用场景
核心挑战
-
学术摘要分类的LLM微调
- 目标:区分人类撰写和AI生成的学术摘要
- 方法:使用Llama 3、Mistral等开源LLM进行微调
-
AI生成学术摘要的人性化
- 目标:将AI生成的摘要转化为更接近人类写作风格
- 方法:分析语言差异,创建配对示例进行模型训练
附加挑战
- 传统机器学习分类
- 学术领域泛化
- 学术写作特征分析
- 学术改写的鲁棒性
- 少样本学术摘要检测
- 类别不平衡处理
引用格式
bibtex @dataset{scalexi2023aiabstract, title = {ScaleXI AI Abstract Dataset}, author = {ScaleXI}, year = {2023}, publisher = {GitHub}, url = {https://github.com/scalexi/scalexi-ai-abstract-dataset} }
许可证
- MIT License
搜集汇总
数据集介绍

构建方式
在人工智能文本检测研究领域,ScaleXI AI Abstract Dataset通过系统化采集与标注构建而成。数据集主要整合了arXiv平台收录的学术摘要与AI生成文本,采用人工标注与自动化处理相结合的方式,确保数据来源的多样性与标注准确性。构建过程中特别注重学术文本的领域覆盖,涵盖计算机科学、物理学等多学科领域,并通过严格的质控流程验证数据质量。
特点
该数据集最显著的特征在于其学术文本的专业性与标注的精确性。收录的2010篇摘要中,人类撰写与AI生成文本的比例呈现典型的非平衡分布,为研究类别不平衡问题提供了真实场景。每篇文本均附带丰富的元数据,包括作者信息、发表期刊、学科分类等,支持多维度的特征分析与模型训练。数据以CSV和JSONL两种格式提供,便于不同技术栈的研究者使用。
使用方法
研究者可通过Python生态工具链高效加载该数据集。对于CSV格式,推荐使用Pandas库进行结构化处理;JSONL格式则更适合流式读取与分布式处理。数据集已预设二分类标签,支持开箱即用的监督学习任务。为提升模型泛化能力,建议采用分层抽样方法划分训练集与测试集,或通过过采样技术处理类别不平衡问题。数据集中丰富的元数据字段可用于构建多模态检测模型。
背景与挑战
背景概述
ScaleXI AI Abstract Dataset由ScaleXI团队于2023年发布,旨在为学术界提供识别AI生成学术摘要的基准数据。该数据集收录2010篇来自arXiv论文与AI生成内容的摘要,涵盖多学科领域,其中人类撰写摘要占比98.3%,AI生成摘要占比1.7%。作为首个专注于学术文本真实性检测的开放数据集,其结构化元数据包含文献DOI、期刊来源、学科分类等学术特征,为自然语言处理领域研究AI文本检测模型提供了重要实验平台。该数据集的建立响应了学术界对AI生成内容鉴别技术的迫切需求,推动了学术诚信保障技术的标准化发展。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,学术摘要特有的专业术语密集性、逻辑严谨性等特征,使得传统文本检测模型的准确率显著下降;数据构建过程中,AI生成样本的稀缺性导致严重类别不平衡,人类撰写摘要与AI生成摘要比例达58:1。同时,跨学科摘要的文体差异为模型泛化带来挑战,而AI生成文本的快速进化特性也要求数据集持续更新以保持检测有效性。此外,学术摘要的元数据完整性不足(如部分缺失DOI或期刊信息)进一步增加了数据清洗与特征工程的复杂度。
常用场景
经典使用场景
在自然语言处理领域,ScaleXI AI Abstract Dataset为研究者提供了探索AI生成文本检测的独特平台。该数据集聚焦学术摘要这一特定文本类型,通过精心构建的人类撰写与AI生成摘要的对比样本,成为训练和评估文本分类模型的理想基准。尤其在大型语言模型快速发展的背景下,该数据集支持研究者开发针对学术场景的专用检测算法,验证模型在真实学术文本中的泛化能力。
实际应用
在学术出版流程中,该数据集支持期刊编辑部开发自动化审稿辅助系统,有效识别潜在的非原创内容。教育机构可基于该数据集构建学术写作指导工具,帮助学生区分规范学术表达与AI生成文本的差异。科研诚信监管部门通过集成相关检测模型,能够大规模筛查学术文献中的异常写作模式,为学术不端调查提供客观依据。
衍生相关工作
该数据集已催生多项创新研究,包括基于对比学习的文本风格迁移模型、面向学术领域的专用检测器(如Academic-GPTDetector)以及跨学科文本特征分析框架。值得注意的是,部分研究通过元学习技术利用该数据集实现了小样本环境下的高效检测,而另一些工作则探索了对抗性训练在提升模型鲁棒性方面的应用,形成了一系列具有影响力的学术论文和技术报告。
以上内容由遇见数据集搜集并总结生成



