five

人工智能生成内容识别数据集

收藏
国家数据集管理服务平台2026-05-09 更新2026-05-09 收录
下载链接:
https://www.ndsms.cn/dataRetrieval/datasetDetail/?id=2f43bd990e630503608af2e336b06dc2
下载链接
链接失效反馈
官方服务:
资源简介:
人工智能生成内容识别数据集是一个面向自然语言处理与生成式人工智能研究构建的大规模文本分类数据集,主要用于区分 AI 生成文本与人类撰写文本。数据集汇聚了来自公开语料、文章、论文、博客、问答内容及多种文本写作场景的数据资源,并对文本进行统一清洗、去重、标准化与标签化处理。

AI-generated content recognition dataset is a large-scale text classification dataset constructed for natural language processing and generative AI research, mainly used to distinguish between AI-generated text and human-written text. The dataset aggregates data resources from public corpora, articles, papers, blogs, question-and-answer content and various text writing scenarios, and performs unified cleaning, deduplication, standardization and labeling processing on the texts.
提供机构:
央迈(厦门)具身智能科技有限公司
创建时间:
2026-05-08
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个面向自然语言处理与生成式人工智能研究的大规模文本分类数据集,核心用途是区分AI生成文本与人类撰写文本。它汇聚了约50万条来自公开语料、文章、博客等多种来源的文本,并经过清洗、去重和标签化处理,适用于AI内容检测、模型训练及AIGC安全治理等场景。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务