five

Langame/starter2

收藏
Hugging Face2023-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Langame/starter2
下载链接
链接失效反馈
官方服务:
资源简介:
数据集starter2由经过微调的GPT3 curie模型在2020年至2022年间生成,基于10,000个对话启动器。生成流程包括生成3个对话启动器,使用微调的curie模型进行分类,并选择排名最高的一个。之后,人类对这些对话启动器进行了审查和修正/删除。数据集的特征包括内容、状态、API完成模型、创建时间、完成类型、API分类模型、语法修正、分片、并行完成、禁用、语法错误、粗俗阈值、推文、对话启动器、主题、嵌入、错误、开发者消息、AI主题和标签等。数据集包含一个训练集,大小为8891417字节,包含3072个示例。
提供机构:
Langame
原始信息汇总

数据集概述

数据集特征

  • content: 字符串类型
  • state: 字符串类型
  • apiCompletionModel: 字符串类型
  • createdAt: 时间戳类型,时区为UTC
  • completionType: 浮点数类型
  • apiClassificationModel: 字符串类型
  • fixGrammar: 布尔类型
  • shard: 浮点数类型
  • parallelCompletions: 浮点数类型
  • disabled: 布尔类型
  • brokenGrammar: 字符串类型
  • profanityThreshold: 浮点数类型
  • tweet: 布尔类型
  • conversationStarters: 列表类型,包含以下元素:
    • aiTopics: 字符串序列
    • broken_grammar: 字符串类型
    • classification: 字符串类型
    • conversation_starter: 字符串类型
  • topics: 字符串序列
  • embedding: 浮点数序列
  • error: 字符串类型
  • developer_message: 字符串类型
  • aiTopics: 字符串序列
  • tags: 字符串序列

数据集拆分

  • train: 数据大小为8891417字节,包含3072个样本

数据集大小

  • 下载大小: 6983130字节
  • 数据集大小: 8891417字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作