Ateeqq/AI-and-Human-Generated-Text
收藏Hugging Face2024-04-11 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Ateeqq/AI-and-Human-Generated-Text
下载链接
链接失效反馈官方服务:
资源简介:
AI-GA数据集,全称为人工智能生成摘要,包含摘要和标题。其中一半的摘要由AI生成,另一半为原始摘要。该数据集主要用于自然语言处理领域的研究和实验,特别是在语言生成和机器学习方面。数据集包含28,662个样本,每个样本包含一个摘要、一个标题和一个标签。数据集被均分为两类:"AI生成摘要"和"原始摘要"。标签用于区分原始摘要(标记为0)和AI生成摘要(标记为1)。值得注意的是,AI生成摘要使用了先进的GPT-3模型进行生成。此外,还提到了一个大型替代数据集,包含人类撰写和LLM生成的文本,适用于LLM文本检测方法的研究。
AI-GA数据集,全称为人工智能生成摘要,包含摘要和标题。其中一半的摘要由AI生成,另一半为原始摘要。该数据集主要用于自然语言处理领域的研究和实验,特别是在语言生成和机器学习方面。数据集包含28,662个样本,每个样本包含一个摘要、一个标题和一个标签。数据集被均分为两类:"AI生成摘要"和"原始摘要"。标签用于区分原始摘要(标记为0)和AI生成摘要(标记为1)。值得注意的是,AI生成摘要使用了先进的GPT-3模型进行生成。此外,还提到了一个大型替代数据集,包含人类撰写和LLM生成的文本,适用于LLM文本检测方法的研究。
提供机构:
Ateeqq
原始信息汇总
AI-GA 数据集概述
数据集基本信息
- 许可证: MIT
- 语言: 英语
- 大小分类: 10K<n<100K
- 任务分类: 文本分类
数据集描述
AI-GA 数据集,全称为 Artificial Intelligence Generated Abstracts,包含摘要和标题。其中一半的摘要由AI生成,另一半为原创。该数据集主要用于自然语言处理领域的研究和实验,特别是语言生成和机器学习方面。
数据集详情
- 样本数量: 28,662
- 样本内容: 每个样本包含一个摘要、一个标题和一个标签。
- 分类: 数据集分为两类,即“AI生成的摘要”和“原创摘要”。
- 标签: 原创摘要标记为0,AI生成的摘要标记为1。
- 生成技术: AI生成的摘要使用先进的语言生成技术,主要利用GPT-3模型。
大型替代数据集
- 链接: https://github.com/sakibsh/LLM
- 内容: 包含人类作者和LLM生成(使用GPT-4和BARD)的文本,涵盖多种类型,如论文、故事、诗歌和Python代码。
- 用途: 用于研究LLM文本检测方法。



