five

nothingiisreal/Human_Stories

收藏
Hugging Face2024-06-09 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/nothingiisreal/Human_Stories
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从Gryphe/Opus-WritingPrompts中提取的,通过脚本处理,形成了包含人类写作与AI写作对比的新数据集。主要用于训练一个高准确率的分类器,去除AI生成文本中的水印和机械化特征,使模型生成更人性化的文本。此外,该数据集还可用于RLHF等目的,改进分类器使其能直接用于推理过程,引导生成更人性化的内容。

该数据集是从Gryphe/Opus-WritingPrompts中提取的,通过脚本处理,形成了包含人类写作与AI写作对比的新数据集。主要用于训练一个高准确率的分类器,去除AI生成文本中的水印和机械化特征,使模型生成更人性化的文本。此外,该数据集还可用于RLHF等目的,改进分类器使其能直接用于推理过程,引导生成更人性化的内容。
提供机构:
nothingiisreal
原始信息汇总

数据集概述

数据来源

  • 原始数据集:[https://huggingface.co/datasets/Gryphe/Opus-WritingPrompts]
  • 处理过程:下载整个subreddit,编写脚本搜索并编译新数据集,对比人类写作与AI生成内容。

数据用途

  • 训练分类器:用于训练一个准确率为95%的分类器,用于检测AI生成内容。
  • 去除水印:旨在去除OpenAI、Claude和Google等公司施加的水印,避免“GPT Slopping”和紫色散文现象。
  • RLHF应用:可用于RLHF(Reinforcement Learning from Human Feedback)等目的,使模型生成更接近人类的文本。

未来工作

  • 改进分类器:正在开发分类器,使其可直接用于推理过程,引导生成更接近人类的文本,避免GPT Slopping。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作