five

artnitolog/llm-generated-texts

收藏
Hugging Face2024-05-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/artnitolog/llm-generated-texts
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由人类作者和大型语言模型(LLMs)生成的并行文本组成。数据集构建方法基于参考文献[1]和[2]中的提示。数据集包含强大的LLMs生成的内容,总计21,000条。使用的LLMs包括GPT4 Turbo 2024-04-09、GPT4 Omni、Claude 3 Opus、Llama3 70B、CommandR+、YandexGPT 3 Pro和GigaChat Pro。人类撰写的文本来源包括学生作文、路透社数据集和创意写作。学生作文和路透社数据集的原始文本通过语义搜索嵌入与提示匹配。

该数据集由人类作者和大型语言模型(LLMs)生成的并行文本组成。数据集构建方法基于参考文献[1]和[2]中的提示。数据集包含强大的LLMs生成的内容,总计21,000条。使用的LLMs包括GPT4 Turbo 2024-04-09、GPT4 Omni、Claude 3 Opus、Llama3 70B、CommandR+、YandexGPT 3 Pro和GigaChat Pro。人类撰写的文本来源包括学生作文、路透社数据集和创意写作。学生作文和路透社数据集的原始文本通过语义搜索嵌入与提示匹配。
提供机构:
artnitolog
原始信息汇总

数据集概述

数据集特征

  • 名称: dataset_name
    • 数据类型: string
  • 标识符: id
    • 数据类型: int64
  • 提示: prompt
    • 数据类型: string
  • 人类作者: human
    • 数据类型: string
  • GPT4 Turbo 2024-04-09: GPT4 Turbo 2024-04-09
    • 数据类型: string
  • GPT4 Omni: GPT4 Omni
    • 数据类型: string
  • Claude 3 Opus: Claude 3 Opus
    • 数据类型: string
  • YandexGPT 3 Pro: YandexGPT 3 Pro
    • 数据类型: string
  • GigaChat Pro: GigaChat Pro
    • 数据类型: string
  • Llama3 70B: Llama3 70B
    • 数据类型: string
  • Command R+: Command R+
    • 数据类型: string

数据集分割

  • 训练集: train
    • 字节数: 75832077
    • 样本数: 3000

数据集大小

  • 下载大小: 41730819
  • 数据集大小: 75832077

配置

  • 配置名称: default
    • 数据文件:
      • 分割: train
      • 路径: data/train-*

任务类别

  • 文本分类

语言

  • 英语

大小类别

  • 10K<n<100K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作