coseal/codal-bench
收藏Hugging Face2024-03-18 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/coseal/codal-bench
下载链接
链接失效反馈官方服务:
资源简介:
CODAL-Bench是一个包含500个随机样本的基准测试,这些样本来自CodeUltraFeedback数据集。该基准测试包括多个封闭源大型语言模型(LLM)的响应,这些响应可以作为使用LLM-as-a-Judge评估其他LLM时的参考。涉及的LLM包括OpenAI的GPT-3.5-Turbo和GPT-4-Turbo,以及Anthropic的Claude-3-sonnet-20240229。此基准测试旨在评估大型语言模型在编码偏好上的对齐情况。
CODAL-Bench是一个包含500个随机样本的基准测试,这些样本来自CodeUltraFeedback数据集。该基准测试包括多个封闭源大型语言模型(LLM)的响应,这些响应可以作为使用LLM-as-a-Judge评估其他LLM时的参考。涉及的LLM包括OpenAI的GPT-3.5-Turbo和GPT-4-Turbo,以及Anthropic的Claude-3-sonnet-20240229。此基准测试旨在评估大型语言模型在编码偏好上的对齐情况。
提供机构:
coseal
原始信息汇总
数据集概述
数据集信息
-
特征(Features):
instruction: 数据类型 - 字符串preference: 数据类型 - 字符串gpt-3.5-turbo_response: 数据类型 - 字符串gpt-4-turbo_response: 数据类型 - 字符串claude-3-sonnet-20240229_response: 数据类型 - 字符串
-
分割(Splits):
test: 大小 - 3712731 字节,样本数 - 500
-
下载大小(Download Size): 1862963 字节
-
数据集大小(Dataset Size): 3712731 字节
配置(Configs)
- 配置名称(Config Name): default
- 数据文件(Data Files):
split: testpath: data/test-*
任务类别(Task Categories)
- text-generation
标签(Tags)
- codal-bench
- llm-as-a-judge
- code generation
- coding preferences
大小类别(Size Categories)
- 1K<n<10K
许可证(License)
- MIT



