中国移动互联网治理行业文本数据合成数据集
收藏国家数据集管理服务平台2026-05-28 更新2026-04-29 收录
下载链接:
https://www.ndsms.cn/dataRetrieval/datasetDetail/?id=ca5cd3cc59527768cdb2775047c18c16
下载链接
链接失效反馈官方服务:
资源简介:
本数据集由合成中文文本和合成英文文本组成,重点体现模型生成内容、规则驱动文本与仿真文本在语义、格式和风格上的可控性。样本可用于增强语料规模、提升模型对生成内容的识别能力,并支持对抗测试、鲁棒性评估及内容安全检测中的数据补齐。
This dataset comprises synthetic Chinese and English texts, with a core focus on the controllability of model-generated content, rule-driven texts and simulated texts across semantics, format and style. The samples can be used to expand corpus scale, enhance the model's capability to identify generated content, and support data supplementation for adversarial testing, robustness evaluation and content security detection.
提供机构:
中移九天人工智能科技(北京)有限公司
创建时间:
2026-04-22
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集由合成中英文文本组成,重点体现模型生成内容、规则驱动文本与仿真文本在语义、格式和风格上的可控性。它可用于增强语料规模、提升模型对生成内容的识别能力,并支持对抗测试、鲁棒性评估及内容安全检测中的数据补齐。数据集规模为62GB,属于文本生成模态,适用于互联网和相关服务行业。
以上内容由遇见数据集搜集并总结生成



