coseal/CodeUltraFeedback
收藏Hugging Face2024-03-15 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/coseal/CodeUltraFeedback
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要用于文本生成任务,特别是与AI反馈、LLM-as-a-Judge、代码生成和编码偏好相关的任务。数据集包含10,000个训练样本,每个样本包含指令、偏好、模型、响应和注释等特征。数据集的大小为92,525,565字节,下载大小为38,154,440字节。数据集的许可证为MIT,适用于10K到100K规模的数据集。
该数据集主要用于文本生成任务,特别是与AI反馈、LLM-as-a-Judge、代码生成和编码偏好相关的任务。数据集包含10,000个训练样本,每个样本包含指令、偏好、模型、响应和注释等特征。数据集的大小为92,525,565字节,下载大小为38,154,440字节。数据集的许可证为MIT,适用于10K到100K规模的数据集。
提供机构:
coseal
原始信息汇总
数据集概述
数据集特征
- instruction: 数据类型为字符串。
- preference: 数据类型为字符串。
- models: 数据类型为字符串序列。
- responses: 列表类型,包含:
- model: 数据类型为字符串。
- response: 数据类型为字符串。
- annotations: 列表类型,包含:
- model: 数据类型为字符串。
- rating: 数据类型为字符串。
- rationale: 数据类型为字符串。
数据集划分
- train:
- 数据大小: 92525565 字节。
- 示例数量: 10000 个。
数据集大小
- 下载大小: 38154440 字节。
- 数据集总大小: 92525565 字节。
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
许可
- 许可证: MIT
任务类别
- text-generation
标签
- AI feedback
- LLM-as-a-Judge
- code generation
- preference dataset
- coding preferences
大小分类
- 10K<n<100K



