artnitolog/llm-generated-texts
收藏Hugging Face2024-05-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/artnitolog/llm-generated-texts
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由人类作者和大型语言模型(LLMs)生成的并行文本组成。数据集构建方法基于参考文献[1]和[2]中的提示。数据集包含强大的LLMs生成的内容,总计21,000条。使用的LLMs包括GPT4 Turbo 2024-04-09、GPT4 Omni、Claude 3 Opus、Llama3 70B、CommandR+、YandexGPT 3 Pro和GigaChat Pro。人类撰写的文本来源包括学生作文、路透社数据集和创意写作。学生作文和路透社数据集的原始文本通过语义搜索嵌入与提示匹配。
该数据集由人类作者和大型语言模型(LLMs)生成的并行文本组成。数据集构建方法基于参考文献[1]和[2]中的提示。数据集包含强大的LLMs生成的内容,总计21,000条。使用的LLMs包括GPT4 Turbo 2024-04-09、GPT4 Omni、Claude 3 Opus、Llama3 70B、CommandR+、YandexGPT 3 Pro和GigaChat Pro。人类撰写的文本来源包括学生作文、路透社数据集和创意写作。学生作文和路透社数据集的原始文本通过语义搜索嵌入与提示匹配。
提供机构:
artnitolog
原始信息汇总
数据集概述
数据集特征
- 名称: dataset_name
- 数据类型: string
- 标识符: id
- 数据类型: int64
- 提示: prompt
- 数据类型: string
- 人类作者: human
- 数据类型: string
- GPT4 Turbo 2024-04-09: GPT4 Turbo 2024-04-09
- 数据类型: string
- GPT4 Omni: GPT4 Omni
- 数据类型: string
- Claude 3 Opus: Claude 3 Opus
- 数据类型: string
- YandexGPT 3 Pro: YandexGPT 3 Pro
- 数据类型: string
- GigaChat Pro: GigaChat Pro
- 数据类型: string
- Llama3 70B: Llama3 70B
- 数据类型: string
- Command R+: Command R+
- 数据类型: string
数据集分割
- 训练集: train
- 字节数: 75832077
- 样本数: 3000
数据集大小
- 下载大小: 41730819
- 数据集大小: 75832077
配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
- 数据文件:
任务类别
- 文本分类
语言
- 英语
大小类别
- 10K<n<100K



