nothingiisreal/Human_Stories
收藏Hugging Face2024-06-09 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/nothingiisreal/Human_Stories
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从Gryphe/Opus-WritingPrompts中提取的,通过脚本处理,形成了包含人类写作与AI写作对比的新数据集。主要用于训练一个高准确率的分类器,去除AI生成文本中的水印和机械化特征,使模型生成更人性化的文本。此外,该数据集还可用于RLHF等目的,改进分类器使其能直接用于推理过程,引导生成更人性化的内容。
该数据集是从Gryphe/Opus-WritingPrompts中提取的,通过脚本处理,形成了包含人类写作与AI写作对比的新数据集。主要用于训练一个高准确率的分类器,去除AI生成文本中的水印和机械化特征,使模型生成更人性化的文本。此外,该数据集还可用于RLHF等目的,改进分类器使其能直接用于推理过程,引导生成更人性化的内容。
提供机构:
nothingiisreal
原始信息汇总
数据集概述
数据来源
- 原始数据集:[https://huggingface.co/datasets/Gryphe/Opus-WritingPrompts]
- 处理过程:下载整个subreddit,编写脚本搜索并编译新数据集,对比人类写作与AI生成内容。
数据用途
- 训练分类器:用于训练一个准确率为95%的分类器,用于检测AI生成内容。
- 去除水印:旨在去除OpenAI、Claude和Google等公司施加的水印,避免“GPT Slopping”和紫色散文现象。
- RLHF应用:可用于RLHF(Reinforcement Learning from Human Feedback)等目的,使模型生成更接近人类的文本。
未来工作
- 改进分类器:正在开发分类器,使其可直接用于推理过程,引导生成更接近人类的文本,避免GPT Slopping。



