five

Ateeqq/AI-and-Human-Generated-Text

收藏
Hugging Face2024-04-11 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Ateeqq/AI-and-Human-Generated-Text
下载链接
链接失效反馈
官方服务:
资源简介:
AI-GA数据集,全称为人工智能生成摘要,包含摘要和标题。其中一半的摘要由AI生成,另一半为原始摘要。该数据集主要用于自然语言处理领域的研究和实验,特别是在语言生成和机器学习方面。数据集包含28,662个样本,每个样本包含一个摘要、一个标题和一个标签。数据集被均分为两类:"AI生成摘要"和"原始摘要"。标签用于区分原始摘要(标记为0)和AI生成摘要(标记为1)。值得注意的是,AI生成摘要使用了先进的GPT-3模型进行生成。此外,还提到了一个大型替代数据集,包含人类撰写和LLM生成的文本,适用于LLM文本检测方法的研究。

AI-GA数据集,全称为人工智能生成摘要,包含摘要和标题。其中一半的摘要由AI生成,另一半为原始摘要。该数据集主要用于自然语言处理领域的研究和实验,特别是在语言生成和机器学习方面。数据集包含28,662个样本,每个样本包含一个摘要、一个标题和一个标签。数据集被均分为两类:"AI生成摘要"和"原始摘要"。标签用于区分原始摘要(标记为0)和AI生成摘要(标记为1)。值得注意的是,AI生成摘要使用了先进的GPT-3模型进行生成。此外,还提到了一个大型替代数据集,包含人类撰写和LLM生成的文本,适用于LLM文本检测方法的研究。
提供机构:
Ateeqq
原始信息汇总

AI-GA 数据集概述

数据集基本信息

  • 许可证: MIT
  • 语言: 英语
  • 大小分类: 10K<n<100K
  • 任务分类: 文本分类

数据集描述

AI-GA 数据集,全称为 Artificial Intelligence Generated Abstracts,包含摘要和标题。其中一半的摘要由AI生成,另一半为原创。该数据集主要用于自然语言处理领域的研究和实验,特别是语言生成和机器学习方面。

数据集详情

  • 样本数量: 28,662
  • 样本内容: 每个样本包含一个摘要、一个标题和一个标签。
  • 分类: 数据集分为两类,即“AI生成的摘要”和“原创摘要”。
  • 标签: 原创摘要标记为0,AI生成的摘要标记为1。
  • 生成技术: AI生成的摘要使用先进的语言生成技术,主要利用GPT-3模型。

大型替代数据集

  • 链接: https://github.com/sakibsh/LLM
  • 内容: 包含人类作者和LLM生成(使用GPT-4和BARD)的文本,涵盖多种类型,如论文、故事、诗歌和Python代码。
  • 用途: 用于研究LLM文本检测方法。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作