AINL-Eval 2025Shared Task: Detection of AI-Generated Scientific Abstracts in Russian
收藏arXiv2025-08-13 更新2025-08-15 收录
下载链接:
https://github.com/iis-research-team/AINL-Eval-2025
下载链接
链接失效反馈官方服务:
资源简介:
AINL-Eval 2025是一个专注于检测俄语科学摘要中AI生成内容的数据集。该数据集包含52305个样本,包括来自12个不同科学领域的由人类撰写的摘要和来自五个最先进的LLM(GPT-4-Turbo、Gemma2-27B、Llama3.3-70B、Deepseek-V3和GigaChat-Lite)生成的摘要。该数据集的目的是挑战参与者开发能够泛化到新领域和检测训练数据中未包含的模型生成的文本的鲁棒解决方案。该数据集和平台是公开可用的,但具体访问地址未在论文中提及。
AINL-Eval 2025 is a dataset dedicated to detecting AI-generated content in Russian scientific abstracts. It encompasses 52,305 samples, including human-written abstracts and abstracts generated by five state-of-the-art large language models (LLMs) — GPT-4-Turbo, Gemma2-27B, Llama3.3-70B, Deepseek-V3, and GigaChat-Lite — across 12 distinct scientific disciplines. The core goal of this dataset is to challenge participants to develop robust detection solutions that generalize to unseen domains and identify text produced by models not included in the training corpus. Both the dataset and its associated platform are publicly accessible, yet no specific access URLs are specified in the accompanying research paper.
提供机构:
A.P.Ershov Institute of Informatics Systems, Novosibirsk, Russia; Novosibirsk State University, Novosibirsk, Russia; ITMO University, Saint Petersburg, Russia
创建时间:
2025-08-13
原始信息汇总
AINL-Eval 2025 数据集概述
数据集背景
- 该数据集用于AINL 2025会议的共享任务,专注于检测俄语科学摘要中AI生成的内容。
- 主要目标:区分人类撰写和AI生成的文本,并识别训练数据中未包含的模型生成的文本。
数据集内容
训练集
- 文本数量:约35,000篇。
- 来源:10个不同领域(每个领域约4,000篇)。
- 标签类别:
[human, llama-3.3-70b, gemma-2-27b, gpt-4-turbo]。
公开测试集
- 文本数量:约11,000篇(来自与训练集相同的10个领域) + 约2,000篇由未知模型生成的文本。
- 标签类别:
[gpt-4-turbo, llama-3.3-70b, gemma-2-27b, human, unknown]。
私有测试集
- 文本数量:约6,000篇。
- 来源:10个不同领域(其中8个与训练集重叠,2个为新领域)。
- 包含人类撰写、已知模型生成及未知模型生成的文本。
任务挑战
- 处理超出训练集范围的数据(泛化到新领域)。
- 检测训练数据中未包含的模型生成的文本(泛化到新模型)。
提交格式
- 文件名称:
submission.csv。 - 文件内容:两列,
id和label。 - 提交方式:通过Codalab平台提交,文件需压缩为zip格式。
评估标准
- 使用准确率(Accuracy)评估解决方案。
基准模型
- TF-IDF + LogReg。
- 微调BERT。
重要日期
- 2025年3月3日:发布训练集和公开测试集。
- 2025年3月5日:开发阶段提交开放。
- 2025年3月25日:私有测试阶段提交开放。
- 2025年4月1日:共享任务结束。
- 2025年4月18-19日:AINL 2025会议,公布最终结果。
- 2025年5月5日:论文提交截止。
组织者
- Tatiana Batura (IIS SB RAS)
- Elena Bruches (IIS SB RAS, NSU)
- Milana Shvenk (NSU)
- Valentin Malykh (MIPT University, ITMO University)
搜集汇总
数据集介绍

构建方式
该数据集的构建基于俄罗斯科学期刊中的人类撰写摘要,覆盖数学、语言学、物理学等12个科学领域,并利用GPT-4-Turbo、Gemma2-27B等五种先进大语言模型生成对应摘要。构建过程中,通过统一提示词确保生成一致性,并采用后处理步骤去除模型特有前缀等干扰信息,最终形成包含52,305个样本的大规模数据集。
特点
数据集以多领域、多模型为显著特征,涵盖人类与AI生成的俄语科学摘要,其中人类撰写摘要平均长度显著高于AI生成内容。测试集特别引入训练阶段未出现的经济学与生物学领域及DeepSeek-V3模型生成文本,有效验证检测模型的跨领域与跨模型泛化能力。数据分布均匀,且通过定量分析揭示了人类与AI在数字使用、句式复杂度等方面的系统性差异。
使用方法
数据集采用两阶段评估框架:开发阶段开放训练集与开发集供模型优化,测试阶段则引入新领域与新模型进行泛化能力验证。参与者需提交模型对文本来源(人类/特定AI模型)的分类结果,评估指标采用分类准确率。数据集持续开放于共享任务平台,支持研究者进行长期方法迭代与性能比对。
背景与挑战
背景概述
AINL-Eval 2025共享任务数据集由俄罗斯的A.P.Ershov信息学系统研究所、新西伯利亚国立大学和ITMO大学的研究团队于2025年创建,旨在解决大型语言模型(LLMs)生成的俄语科学摘要检测问题。随着LLMs在文本生成领域的快速发展,区分人类撰写与AI生成的内容变得日益困难,这对学术诚信构成了严峻挑战,尤其在多语言环境下检测资源有限的情况下。该数据集包含52,305个样本,涵盖12个科学领域的人类撰写摘要及五种先进LLMs生成的对应文本,为相关研究提供了重要基准。
当前挑战
该数据集面临的核心挑战包括:1) 领域泛化问题,要求检测模型能够识别训练数据中未涵盖的新科学领域文本;2) 模型泛化问题,需检测训练阶段未见的LLMs生成的内容。构建过程中的挑战则涉及多领域文本的平衡采集、生成文本的质量控制,以及消除不同LLMs生成文本中的特定模式。此外,俄语作为资源相对较少的语言,其语言特性也为数据集的构建和模型训练带来了额外难度。
常用场景
经典使用场景
AINL-Eval 2025数据集专注于检测俄语科学摘要中AI生成的内容,其经典使用场景包括学术出版领域的文本真实性验证。该数据集通过提供多领域、多模型生成的文本样本,为研究人员开发高效的AI文本检测算法提供了基准测试平台。在自然语言处理领域,该数据集被广泛应用于模型鲁棒性测试、跨领域泛化能力评估以及新型检测方法的性能验证。
实际应用
在实际应用中,AINL-Eval 2025数据集为学术期刊编辑部、科研诚信监管机构提供了可靠的AI文本检测工具开发基础。其俄语科学文本的专精特性,特别适用于斯拉夫语系地区的学术出版质量管控。教育机构可利用该数据集开发学术写作诚信检测系统,而科技企业则基于此优化多语言内容审核解决方案。
衍生相关工作
该数据集催生了一系列创新研究,包括团队sastsy提出的基于Mistral-7B的双头架构检测系统,以及adugeen开发的混合统计与神经特征方法。相关衍生工作还涉及GigaCheck检测器的优化、零样本检测方法的改进等。这些成果在SemEval-2024等国际评测中持续推动着AI文本检测技术的边界拓展。
以上内容由遇见数据集搜集并总结生成



