Langame/starter2
收藏Hugging Face2023-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Langame/starter2
下载链接
链接失效反馈官方服务:
资源简介:
数据集starter2由经过微调的GPT3 curie模型在2020年至2022年间生成,基于10,000个对话启动器。生成流程包括生成3个对话启动器,使用微调的curie模型进行分类,并选择排名最高的一个。之后,人类对这些对话启动器进行了审查和修正/删除。数据集的特征包括内容、状态、API完成模型、创建时间、完成类型、API分类模型、语法修正、分片、并行完成、禁用、语法错误、粗俗阈值、推文、对话启动器、主题、嵌入、错误、开发者消息、AI主题和标签等。数据集包含一个训练集,大小为8891417字节,包含3072个示例。
提供机构:
Langame
原始信息汇总
数据集概述
数据集特征
- content: 字符串类型
- state: 字符串类型
- apiCompletionModel: 字符串类型
- createdAt: 时间戳类型,时区为UTC
- completionType: 浮点数类型
- apiClassificationModel: 字符串类型
- fixGrammar: 布尔类型
- shard: 浮点数类型
- parallelCompletions: 浮点数类型
- disabled: 布尔类型
- brokenGrammar: 字符串类型
- profanityThreshold: 浮点数类型
- tweet: 布尔类型
- conversationStarters: 列表类型,包含以下元素:
- aiTopics: 字符串序列
- broken_grammar: 字符串类型
- classification: 字符串类型
- conversation_starter: 字符串类型
- topics: 字符串序列
- embedding: 浮点数序列
- error: 字符串类型
- developer_message: 字符串类型
- aiTopics: 字符串序列
- tags: 字符串序列
数据集拆分
- train: 数据大小为8891417字节,包含3072个样本
数据集大小
- 下载大小: 6983130字节
- 数据集大小: 8891417字节



